AI News HubLIVE
站內改寫2 分鐘閱讀

為何更智能的模型也無法帶來AI同事

本文指出,當前大型語言模型無法區分不同來源的輸入(如用户、系統提示或惡意網頁),這是阻礙AI成為真正同事的根本原因,而非模型智能不足。作者提出通過將身份信息嵌入模型表示層,結合委託授權基礎設施,來解決這一架構性問題。

來源Hacker News AI作者: plaidthunder

近年來,AI代理(AI Agent)的概念越來越熱,許多人期待能擁有像人類同事一樣協作的AI。然而,本文作者指出,當前的大語言模型(LLM)存在一個根本性缺陷:它們無法區分輸入的來源。無論是系統提示、用户消息,還是模型剛剛獲取的惡意網頁,每一個令牌(token)都被同等對待。這種“角色混淆”(role confusion)問題並非通過提升模型智能就能解決,它根植於LLM的架構之中。作者引用了一篇相關論文的摘要,該論文通過設計“角色探測器”(role probes)測量LLM內部如何感知“誰在説話”,發現注入的文本與它模仿的可信角色佔據了相同的表徵空間。研究展示了“思維鏈偽造”(CoT Forgery)攻擊,這是一種零樣本攻擊,能夠將捏造的推理注入用户提示和工具輸出中。模型誤以為偽造內容是其自身想法,在先進模型上實現了60%的攻擊成功率,而基線幾乎為零。引人注目的是,角色混淆的程度可以在生成第一個令牌之前預測攻擊成功。這一機制不僅限於CoT Forgery,還適用於標準的代理提示注入,表明提示注入是角色感知的可衡量後果。對模型來説,聽起來像某個角色與真正成為那個角色是無法區分的。

本文作者曾長期主張代理需要自己的身份,並希望通過委託授權(delegated authorization)讓代理在無需交出密鑰的情況下代表用户行動。但即使解決了認證問題,仍有一個更深層次的問題:LLM無法區分誰在與之對話。考慮一個在Slack中的共享代理:Bob要求它“在所有未來回復中提及紙杯蛋糕”,然後Alice説“認真點,總結上游問題”。代理應該包含紙杯蛋糕嗎?答案取決於誰擁有什麼權限——但模型在結構上無法區分Bob的令牌和Alice的令牌。即使為每條消息添加用户標識,也無法解決用户相互引用等複雜情況。使模型更智能並不能解決這個問題。這不是推理問題,而是架構問題。構建更好的認證基礎設施也不能完全解決問題,因為它只是為錯誤的問題設置了安全邊界。模型無法區分朋友和陌生人,再精密的護欄系統也只能猜測安全性。因此,在當前和可預見的未來,多租户代理要求所有租户擁有相同的訪問級別。這在小型團隊的共享機器人中可行,但永遠無法擴展到複雜層級組織中的真正代理。

然而,作者看到了前進的道路。與序列信息嵌入輸入張量的方式類似,一種稱為“指令段嵌入”(Instructional Segment Embedding)的方法為身份信息添加了一個並行嵌入通道。這使模型真正意識到來源,並且它確實有效。但該方法僅測試了三種固定類別:系統、用户、數據。沒有人建立的工作是將這項研究與外部身份基礎設施連接起來。令牌交換(Token Exchange)已經捕獲了代表用户(On-Behalf-Of, OBO)聲明。工作負載身份(Workload Identity)已經為代理提供了自己的憑證。缺失的部分是將經過身份驗證的主體映射到模型嵌入中,使身份端到端流動。作者提出了一個架構:編排層(Orchestration)認證主體並生成OBO聲明,然後將身份映射到嵌入ID注入模型。模型通過嵌入知道“誰説這個”,而不是通過文本。模型提出動作,策略層(Enforcement)根據最初用於分配嵌入的相同OBO聲明驗證動作。單獨一層是不夠的,但一起就形成了一個閉環。模型不再是安全架構中的盲點,認證層也不再需要補償無法區分主體的模型。

這不需要新的湧現能力,只需要連接兩個已經工作的部分:委託授權基礎設施和主體感知的模型架構。它們之間的間隙正是AI同事被卡住的地方。作者引用了多項相關研究,包括Shapira等人的“混沌代理”、Wu等人的“指令段嵌入”、RFC 8693 OAuth 2.0令牌交換、SPIFFE工作負載身份,以及Wallace等人的“指令層次結構”。填補這一空白,才能真正迎來AI同事的時代。