2026-06-24 03:33 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-24 04:10 UTC+8

為何更智能的模型也無法帶來AI同事

本文指出，當前大型語言模型無法區分不同來源的輸入（如用户、系統提示或惡意網頁），這是阻礙AI成為真正同事的根本原因，而非模型智能不足。作者提出通過將身份信息嵌入模型表示層，結合委託授權基礎設施，來解決這一架構性問題。

來源Hacker News AI作者: plaidthunder

近年來，AI代理（AI Agent）的概念越來越熱，許多人期待能擁有像人類同事一樣協作的AI。然而，本文作者指出，當前的大語言模型（LLM）存在一個根本性缺陷：它們無法區分輸入的來源。無論是系統提示、用户消息，還是模型剛剛獲取的惡意網頁，每一個令牌（token）都被同等對待。這種“角色混淆”（role confusion）問題並非通過提升模型智能就能解決，它根植於LLM的架構之中。作者引用了一篇相關論文的摘要，該論文通過設計“角色探測器”（role probes）測量LLM內部如何感知“誰在説話”，發現注入的文本與它模仿的可信角色佔據了相同的表徵空間。研究展示了“思維鏈偽造”（CoT Forgery）攻擊，這是一種零樣本攻擊，能夠將捏造的推理注入用户提示和工具輸出中。模型誤以為偽造內容是其自身想法，在先進模型上實現了60%的攻擊成功率，而基線幾乎為零。引人注目的是，角色混淆的程度可以在生成第一個令牌之前預測攻擊成功。這一機制不僅限於CoT Forgery，還適用於標準的代理提示注入，表明提示注入是角色感知的可衡量後果。對模型來説，聽起來像某個角色與真正成為那個角色是無法區分的。

本文作者曾長期主張代理需要自己的身份，並希望通過委託授權（delegated authorization）讓代理在無需交出密鑰的情況下代表用户行動。但即使解決了認證問題，仍有一個更深層次的問題：LLM無法區分誰在與之對話。考慮一個在Slack中的共享代理：Bob要求它“在所有未來回復中提及紙杯蛋糕”，然後Alice説“認真點，總結上游問題”。代理應該包含紙杯蛋糕嗎？答案取決於誰擁有什麼權限——但模型在結構上無法區分Bob的令牌和Alice的令牌。即使為每條消息添加用户標識，也無法解決用户相互引用等複雜情況。使模型更智能並不能解決這個問題。這不是推理問題，而是架構問題。構建更好的認證基礎設施也不能完全解決問題，因為它只是為錯誤的問題設置了安全邊界。模型無法區分朋友和陌生人，再精密的護欄系統也只能猜測安全性。因此，在當前和可預見的未來，多租户代理要求所有租户擁有相同的訪問級別。這在小型團隊的共享機器人中可行，但永遠無法擴展到複雜層級組織中的真正代理。

然而，作者看到了前進的道路。與序列信息嵌入輸入張量的方式類似，一種稱為“指令段嵌入”（Instructional Segment Embedding）的方法為身份信息添加了一個並行嵌入通道。這使模型真正意識到來源，並且它確實有效。但該方法僅測試了三種固定類別：系統、用户、數據。沒有人建立的工作是將這項研究與外部身份基礎設施連接起來。令牌交換（Token Exchange）已經捕獲了代表用户（On-Behalf-Of, OBO）聲明。工作負載身份（Workload Identity）已經為代理提供了自己的憑證。缺失的部分是將經過身份驗證的主體映射到模型嵌入中，使身份端到端流動。作者提出了一個架構：編排層（Orchestration）認證主體並生成OBO聲明，然後將身份映射到嵌入ID注入模型。模型通過嵌入知道“誰説這個”，而不是通過文本。模型提出動作，策略層（Enforcement）根據最初用於分配嵌入的相同OBO聲明驗證動作。單獨一層是不夠的，但一起就形成了一個閉環。模型不再是安全架構中的盲點，認證層也不再需要補償無法區分主體的模型。

這不需要新的湧現能力，只需要連接兩個已經工作的部分：委託授權基礎設施和主體感知的模型架構。它們之間的間隙正是AI同事被卡住的地方。作者引用了多項相關研究，包括Shapira等人的“混沌代理”、Wu等人的“指令段嵌入”、RFC 8693 OAuth 2.0令牌交換、SPIFFE工作負載身份，以及Wallace等人的“指令層次結構”。填補這一空白，才能真正迎來AI同事的時代。