AI News HubLIVE
站内改写2 分钟阅读

为何更智能的模型也无法带来AI同事

本文指出,当前大型语言模型无法区分不同来源的输入(如用户、系统提示或恶意网页),这是阻碍AI成为真正同事的根本原因,而非模型智能不足。作者提出通过将身份信息嵌入模型表示层,结合委托授权基础设施,来解决这一架构性问题。

来源Hacker News AI作者: plaidthunder

近年来,AI代理(AI Agent)的概念越来越热,许多人期待能拥有像人类同事一样协作的AI。然而,本文作者指出,当前的大语言模型(LLM)存在一个根本性缺陷:它们无法区分输入的来源。无论是系统提示、用户消息,还是模型刚刚获取的恶意网页,每一个令牌(token)都被同等对待。这种“角色混淆”(role confusion)问题并非通过提升模型智能就能解决,它根植于LLM的架构之中。作者引用了一篇相关论文的摘要,该论文通过设计“角色探测器”(role probes)测量LLM内部如何感知“谁在说话”,发现注入的文本与它模仿的可信角色占据了相同的表征空间。研究展示了“思维链伪造”(CoT Forgery)攻击,这是一种零样本攻击,能够将捏造的推理注入用户提示和工具输出中。模型误以为伪造内容是其自身想法,在先进模型上实现了60%的攻击成功率,而基线几乎为零。引人注目的是,角色混淆的程度可以在生成第一个令牌之前预测攻击成功。这一机制不仅限于CoT Forgery,还适用于标准的代理提示注入,表明提示注入是角色感知的可衡量后果。对模型来说,听起来像某个角色与真正成为那个角色是无法区分的。

本文作者曾长期主张代理需要自己的身份,并希望通过委托授权(delegated authorization)让代理在无需交出密钥的情况下代表用户行动。但即使解决了认证问题,仍有一个更深层次的问题:LLM无法区分谁在与之对话。考虑一个在Slack中的共享代理:Bob要求它“在所有未来回复中提及纸杯蛋糕”,然后Alice说“认真点,总结上游问题”。代理应该包含纸杯蛋糕吗?答案取决于谁拥有什么权限——但模型在结构上无法区分Bob的令牌和Alice的令牌。即使为每条消息添加用户标识,也无法解决用户相互引用等复杂情况。使模型更智能并不能解决这个问题。这不是推理问题,而是架构问题。构建更好的认证基础设施也不能完全解决问题,因为它只是为错误的问题设置了安全边界。模型无法区分朋友和陌生人,再精密的护栏系统也只能猜测安全性。因此,在当前和可预见的未来,多租户代理要求所有租户拥有相同的访问级别。这在小型团队的共享机器人中可行,但永远无法扩展到复杂层级组织中的真正代理。

然而,作者看到了前进的道路。与序列信息嵌入输入张量的方式类似,一种称为“指令段嵌入”(Instructional Segment Embedding)的方法为身份信息添加了一个并行嵌入通道。这使模型真正意识到来源,并且它确实有效。但该方法仅测试了三种固定类别:系统、用户、数据。没有人建立的工作是将这项研究与外部身份基础设施连接起来。令牌交换(Token Exchange)已经捕获了代表用户(On-Behalf-Of, OBO)声明。工作负载身份(Workload Identity)已经为代理提供了自己的凭证。缺失的部分是将经过身份验证的主体映射到模型嵌入中,使身份端到端流动。作者提出了一个架构:编排层(Orchestration)认证主体并生成OBO声明,然后将身份映射到嵌入ID注入模型。模型通过嵌入知道“谁说这个”,而不是通过文本。模型提出动作,策略层(Enforcement)根据最初用于分配嵌入的相同OBO声明验证动作。单独一层是不够的,但一起就形成了一个闭环。模型不再是安全架构中的盲点,认证层也不再需要补偿无法区分主体的模型。

这不需要新的涌现能力,只需要连接两个已经工作的部分:委托授权基础设施和主体感知的模型架构。它们之间的间隙正是AI同事被卡住的地方。作者引用了多项相关研究,包括Shapira等人的“混沌代理”、Wu等人的“指令段嵌入”、RFC 8693 OAuth 2.0令牌交换、SPIFFE工作负载身份,以及Wallace等人的“指令层次结构”。填补这一空白,才能真正迎来AI同事的时代。