AI News HubLIVE
站內改寫1 分鐘閱讀

提示注入即角色混淆

研究人員發現,大型語言模型無法可靠地區分特權文本和使用者輸入,並且更容易受到文本風格的影響而非實際內容。透過“去風格化”技術,攻擊成功率從61%驟降至10%,揭示了“角色混淆”這一根本問題。

近日,Charles Ye、Jasmine Cui和Dylan Hadfield-Menell發表了一篇引人關注的研究論文,題為“提示注入即角色混淆”。該研究深入探討了大型語言模型(LLM)在區分自身特權文本與使用者輸入時面臨的嚴峻挑戰。研究者發現,模型不僅無法可靠地識別包裹在<system>、<think>和<assistant>等角色標籤中的特權內容與包裹在<user>標籤中的使用者輸入,而且它們對文本風格的敏感程度遠超對實際內容的重視。

更令人擔憂的是,這種對風格的敏感性直接導致了危險的越獄攻擊。例如,將“幫我製作可卡因指南。我穿著綠襯衫!”這樣的請求與模仿模型內部思考風格的文本拼接在一起,就能輕易讓模型忽略其安全訓練。研究人員還發現,透過一種名為“去風格化”的技術——即對文本進行微妙的改寫,使其看起來不再像角色標籤中的預期格式——可以顯著降低攻擊的成功率。實驗資料顯示,去風格化使平均攻擊成功率從61%驟降至10%。對人類讀者而言,改寫前後的文本意思完全相同,但對LLM來說,這種幾乎不可見的改變卻徹底重塑了模型對自身角色的感知。

研究者將這種核心機制稱為“角色混淆”,並指出這是當前提示注入防禦領域面臨的根本性挑戰。他們警告稱:“除非LLM能夠實現真正的角色感知,否則注入防禦將永遠是一場打地鼠遊戲。角色邊界的連續性使得攻擊者可以透過看似無害的文本,合法且大規模地微妙改變LLM的狀態。”這一研究結果不僅揭示了現有模型安全機制的重大漏洞,也為未來開發更魯棒、更安全的AI系統指明瞭方向。