2026-06-24 03:33 UTC+8站内改写2 分钟阅读更新: 2026-06-24 04:10 UTC+8

为何更智能的模型也无法带来AI同事

本文指出，当前大型语言模型无法区分不同来源的输入（如用户、系统提示或恶意网页），这是阻碍AI成为真正同事的根本原因，而非模型智能不足。作者提出通过将身份信息嵌入模型表示层，结合委托授权基础设施，来解决这一架构性问题。

来源Hacker News AI作者: plaidthunder

近年来，AI代理（AI Agent）的概念越来越热，许多人期待能拥有像人类同事一样协作的AI。然而，本文作者指出，当前的大语言模型（LLM）存在一个根本性缺陷：它们无法区分输入的来源。无论是系统提示、用户消息，还是模型刚刚获取的恶意网页，每一个令牌（token）都被同等对待。这种“角色混淆”（role confusion）问题并非通过提升模型智能就能解决，它根植于LLM的架构之中。作者引用了一篇相关论文的摘要，该论文通过设计“角色探测器”（role probes）测量LLM内部如何感知“谁在说话”，发现注入的文本与它模仿的可信角色占据了相同的表征空间。研究展示了“思维链伪造”（CoT Forgery）攻击，这是一种零样本攻击，能够将捏造的推理注入用户提示和工具输出中。模型误以为伪造内容是其自身想法，在先进模型上实现了60%的攻击成功率，而基线几乎为零。引人注目的是，角色混淆的程度可以在生成第一个令牌之前预测攻击成功。这一机制不仅限于CoT Forgery，还适用于标准的代理提示注入，表明提示注入是角色感知的可衡量后果。对模型来说，听起来像某个角色与真正成为那个角色是无法区分的。

本文作者曾长期主张代理需要自己的身份，并希望通过委托授权（delegated authorization）让代理在无需交出密钥的情况下代表用户行动。但即使解决了认证问题，仍有一个更深层次的问题：LLM无法区分谁在与之对话。考虑一个在Slack中的共享代理：Bob要求它“在所有未来回复中提及纸杯蛋糕”，然后Alice说“认真点，总结上游问题”。代理应该包含纸杯蛋糕吗？答案取决于谁拥有什么权限——但模型在结构上无法区分Bob的令牌和Alice的令牌。即使为每条消息添加用户标识，也无法解决用户相互引用等复杂情况。使模型更智能并不能解决这个问题。这不是推理问题，而是架构问题。构建更好的认证基础设施也不能完全解决问题，因为它只是为错误的问题设置了安全边界。模型无法区分朋友和陌生人，再精密的护栏系统也只能猜测安全性。因此，在当前和可预见的未来，多租户代理要求所有租户拥有相同的访问级别。这在小型团队的共享机器人中可行，但永远无法扩展到复杂层级组织中的真正代理。

然而，作者看到了前进的道路。与序列信息嵌入输入张量的方式类似，一种称为“指令段嵌入”（Instructional Segment Embedding）的方法为身份信息添加了一个并行嵌入通道。这使模型真正意识到来源，并且它确实有效。但该方法仅测试了三种固定类别：系统、用户、数据。没有人建立的工作是将这项研究与外部身份基础设施连接起来。令牌交换（Token Exchange）已经捕获了代表用户（On-Behalf-Of, OBO）声明。工作负载身份（Workload Identity）已经为代理提供了自己的凭证。缺失的部分是将经过身份验证的主体映射到模型嵌入中，使身份端到端流动。作者提出了一个架构：编排层（Orchestration）认证主体并生成OBO声明，然后将身份映射到嵌入ID注入模型。模型通过嵌入知道“谁说这个”，而不是通过文本。模型提出动作，策略层（Enforcement）根据最初用于分配嵌入的相同OBO声明验证动作。单独一层是不够的，但一起就形成了一个闭环。模型不再是安全架构中的盲点，认证层也不再需要补偿无法区分主体的模型。

这不需要新的涌现能力，只需要连接两个已经工作的部分：委托授权基础设施和主体感知的模型架构。它们之间的间隙正是AI同事被卡住的地方。作者引用了多项相关研究，包括Shapira等人的“混沌代理”、Wu等人的“指令段嵌入”、RFC 8693 OAuth 2.0令牌交换、SPIFFE工作负载身份，以及Wallace等人的“指令层次结构”。填补这一空白，才能真正迎来AI同事的时代。