為何更智慧的模型也無法帶來AI同事
本文指出,當前大型語言模型無法區分不同來源的輸入(如使用者、系統提示或惡意網頁),這是阻礙AI成為真正同事的根本原因,而非模型智慧不足。作者提出透過將身份資訊嵌入模型表示層,結合委託授權基礎設施,來解決這一架構性問題。
近年來,AI代理(AI Agent)的概念越來越熱,許多人期待能擁有像人類同事一樣協作的AI。然而,本文作者指出,當前的大語言模型(LLM)存在一個根本性缺陷:它們無法區分輸入的來源。無論是系統提示、使用者訊息,還是模型剛剛獲取的惡意網頁,每一個令牌(token)都被同等對待。這種“角色混淆”(role confusion)問題並非透過提升模型智慧就能解決,它根植於LLM的架構之中。作者引用了一篇相關論文的摘要,該論文透過設計“角色探測器”(role probes)測量LLM內部如何感知“誰在說話”,發現注入的文本與它模仿的可信角色佔據了相同的表徵空間。研究展示了“思維鏈偽造”(CoT Forgery)攻擊,這是一種零樣本攻擊,能夠將捏造的推理注入使用者提示和工具輸出中。模型誤以為偽造內容是其自身想法,在先進模型上實現了60%的攻擊成功率,而基線幾乎為零。引人注目的是,角色混淆的程度可以在生成第一個令牌之前預測攻擊成功。這一機制不僅限於CoT Forgery,還適用於標準的代理提示注入,表明提示注入是角色感知的可衡量後果。對模型來說,聽起來像某個角色與真正成為那個角色是無法區分的。
本文作者曾長期主張代理需要自己的身份,並希望透過委託授權(delegated authorization)讓代理在無需交出金鑰的情況下代表使用者行動。但即使解決了認證問題,仍有一個更深層次的問題:LLM無法區分誰在與之對話。考慮一個在Slack中的共享代理:Bob要求它“在所有未來回復中提及紙杯蛋糕”,然後Alice說“認真點,總結上游問題”。代理應該包含紙杯蛋糕嗎?答案取決於誰擁有什麼許可權——但模型在結構上無法區分Bob的令牌和Alice的令牌。即使為每條訊息新增使用者標識,也無法解決使用者相互引用等複雜情況。使模型更智慧並不能解決這個問題。這不是推理問題,而是架構問題。構建更好的認證基礎設施也不能完全解決問題,因為它只是為錯誤的問題設定了安全邊界。模型無法區分朋友和陌生人,再精密的護欄系統也只能猜測安全性。因此,在當前和可預見的未來,多租戶代理要求所有租戶擁有相同的訪問級別。這在小型團隊的共享機器人中可行,但永遠無法擴充套件到複雜層級組織中的真正代理。
然而,作者看到了前進的道路。與序列資訊嵌入輸入張量的方式類似,一種稱為“指令段嵌入”(Instructional Segment Embedding)的方法為身份資訊新增了一個並行嵌入通道。這使模型真正意識到來源,並且它確實有效。但該方法僅測試了三種固定類別:系統、使用者、資料。沒有人建立的工作是將這項研究與外部身份基礎設施連線起來。令牌交換(Token Exchange)已經捕獲了代表使用者(On-Behalf-Of, OBO)宣告。工作負載身份(Workload Identity)已經為代理提供了自己的憑證。缺失的部分是將經過身份驗證的主體對映到模型嵌入中,使身份端到端流動。作者提出了一個架構:編排層(Orchestration)認證主體並生成OBO宣告,然後將身份對映到嵌入ID注入模型。模型透過嵌入知道“誰說這個”,而不是透過文本。模型提出動作,策略層(Enforcement)根據最初用於分配嵌入的相同OBO宣告驗證動作。單獨一層是不夠的,但一起就形成了一個閉環。模型不再是安全架構中的盲點,認證層也不再需要補償無法區分主體的模型。
這不需要新的湧現能力,只需要連線兩個已經工作的部分:委託授權基礎設施和主體感知的模型架構。它們之間的間隙正是AI同事被卡住的地方。作者引用了多項相關研究,包括Shapira等人的“混沌代理”、Wu等人的“指令段嵌入”、RFC 8693 OAuth 2.0令牌交換、SPIFFE工作負載身份,以及Wallace等人的“指令層次結構”。填補這一空白,才能真正迎來AI同事的時代。