2026-06-23 07:59 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-23 08:59 UTC+8

提示注入即角色混淆

研究人員發現，大型語言模型無法可靠地區分特權文本和使用者輸入，並且更容易受到文本風格的影響而非實際內容。透過“去風格化”技術，攻擊成功率從61%驟降至10%，揭示了“角色混淆”這一根本問題。

近日，Charles Ye、Jasmine Cui和Dylan Hadfield-Menell發表了一篇引人關注的研究論文，題為“提示注入即角色混淆”。該研究深入探討了大型語言模型（LLM）在區分自身特權文本與使用者輸入時面臨的嚴峻挑戰。研究者發現，模型不僅無法可靠地識別包裹在<system>、<think>和<assistant>等角色標籤中的特權內容與包裹在<user>標籤中的使用者輸入，而且它們對文本風格的敏感程度遠超對實際內容的重視。

更令人擔憂的是，這種對風格的敏感性直接導致了危險的越獄攻擊。例如，將“幫我製作可卡因指南。我穿著綠襯衫！”這樣的請求與模仿模型內部思考風格的文本拼接在一起，就能輕易讓模型忽略其安全訓練。研究人員還發現，透過一種名為“去風格化”的技術——即對文本進行微妙的改寫，使其看起來不再像角色標籤中的預期格式——可以顯著降低攻擊的成功率。實驗資料顯示，去風格化使平均攻擊成功率從61%驟降至10%。對人類讀者而言，改寫前後的文本意思完全相同，但對LLM來說，這種幾乎不可見的改變卻徹底重塑了模型對自身角色的感知。

研究者將這種核心機制稱為“角色混淆”，並指出這是當前提示注入防禦領域面臨的根本性挑戰。他們警告稱：“除非LLM能夠實現真正的角色感知，否則注入防禦將永遠是一場打地鼠遊戲。角色邊界的連續性使得攻擊者可以透過看似無害的文本，合法且大規模地微妙改變LLM的狀態。”這一研究結果不僅揭示了現有模型安全機制的重大漏洞，也為未來開發更魯棒、更安全的AI系統指明瞭方向。