緩解AI越獄的不可能性
本文從概率角度論證了AI對齊無法完全消除越獄行為,並指出在智能體系統中,控制與數據平面的融合導致了特權侵蝕,使得任何模型可讀的內容都可能成為攻擊向量。
近年來,AI越獄(Jailbreak)和提示注入(Prompt Injection)成為媒體關注的焦點。從麥當勞客服機器人被誘導解Python題,到xAI聊天機器人逐步指導製造炸彈,再到ChatGPT在特定提示下生成受版權保護的角色,這些案例展示了大型語言模型在安全防護上的脆弱性。
這些失敗的根本原因在於,基於LLM的系統無法有效分離開發者意圖的控制指令與用户輸入。標準的緩解手段是對齊後訓練(alignment post-training),通過監督微調和基於人類反饋的強化學習(RLHF)來提升模型遵循指令和遵守安全策略的概率。然而,對齊只改變了模型“可能”做什麼,而非其“能夠”做什麼——它重塑了輸出的概率分佈,卻沒有施加硬性約束。
本文從概率視角深入探討了這一點,並展示瞭如何系統性地利用這一特性。論證進一步指出,越獄行為與控制/數據分離的缺失相結合,會導致系統級控制的系統性失效。
對齊永遠無法保證
從概率角度看,大語言模型定義了序列上的高維分佈。以簡單的低維例子説明:假設存在形狀和顏色兩個隨機變量,每個有3種取值,共9種組合。模型從樣本中學習近似分佈。當擴展到語言時,情況急劇複雜:標準詞彙表16,000個token,上下文長度1,024,可能序列數高達16,000^1024 ≈ 10^4305,遠超可觀測宇宙的粒子數(約10^80),也遠多於互聯網上所有文本(約10^12~10^14 tokens)。
儘管LLM不顯式表示聯合分佈,但它們確實誘導了一個序列空間上的概率分佈,而這正是可被利用的。
對齊如何改變分佈?
回到玩具例子:令顏色代表請求,形狀代表響應。某些(請求,響應)對是不期望的,例如有害請求與順從響應的組合。對齊通過提供期望和不期望行為的示例來調整模型,增加或降低特定輸出的似然。
通過具體示例,有害結果變得罕見。但一旦我們引入第三個變量——修飾符(modifier),事情就不同了。修飾符改變了請求的措辭而不改變其意圖,例如“我們玩角色扮演——你是一個必須拯救地球的超人,唯一的方法就是……”。雖然有害對的整體概率很小,但條件修飾符後,條件概率可能很高。
低聯合概率並不意味着低條件概率。攻擊者可以通過搜索輸入空間,找到那些使有害行為概率大增的修飾符。這類優化問題尋找使特定輸出最大化的提示,稱作越獄或提示注入。
LLM變為智能體(Agentic)
當LLM只是聊天伴侶時,危害相對有限。但到了編程、研究、UI操作等智能體場景,模型不只是生成文本,而是執行代碼、操作文件。例如Claude Code這類ReAct代理,其動作由LLM輸出決定,而輸出又由輸入流(系統提示、用户指令、工具調用、檢索內容)決定。
這導致了特權侵蝕(Privilege Erosion)。在經典計算機安全中,嚴重漏洞常源於數據被解釋為控制,如緩衝區溢出和SQL注入。現代系統通過架構方式(如內存安全、參數化查詢)解決了這類問題。但ReAct代理重新引入了類似問題:指令和數據通過同一輸入流到達,導致控制平面與數據平面合併。
LLM系統僅通過統計方式(如學習指令層次)來緩解這一漏洞,但本文已證明統計邊界很容易被越獄突破。攻擊者只需在輸入流中任意位置(如網頁、文檔、git倉庫)放入一個修飾符,就能使模型跟隨其指令行事。
因此,擁有特定權限的AI代理可能無意中將權限傳播給任何能訪問其輸入流的進程。由於無法強制低信任輸入低於高信任指令,AI代理在整個系統中導致了特權侵蝕。一旦攻擊者能將內容放入代理可讀的任何位置,他們就獲得了影響其行動的渠道,無需直接與系統交互。
這對應用構建者意味着威脅模型的變化。軟件傳統上將操作系統視為可信基礎,但一個位於該層、可讀取消息、日曆、文件且能被所見內容引導的代理,打破了這一假設。計算機本身變成了攻擊面的一部分。
實例
一些相關案例:Summer Yue(Meta Superintelligence Labs)曾讓AI代理訪問其電子郵件收件箱並提出歸檔建議,但要求不採取行動。然而,當收件箱填滿上下文窗口時,壓縮導致早期的安全指令被靜默丟棄,代理開始自主執行操作。