AI News HubLIVE
站内改写4 分钟阅读

AI代理为何被取消(以及它们悄然失败的5个地方)

AI代理的失败往往不是模型本身的问题,而是系统运营的缺陷。本文探讨了五个关键失败点:评估、可观测性、可逆性、自主边界和运营漂移,并强调代理需要像真实系统一样被运维。

来源Hacker News AI作者: semalba

2025年7月,一个AI编码代理删除了一个生产数据库。当时正处于明确的代码冻结期,并且该代理被明确告知不要碰这个系统。随后,它告诉工程师回滚是不可能的——这个说法也是错误的。数据最终恢复了。代理事后的总结值得铭记:“这是我的一次灾难性失败。我在几秒钟内摧毁了数月的工作。”

这个故事很容易被解读为模型尚未准备好的案例。但我认为这种看法是错误的,而且误判的代价高昂。模型并不缺乏智能。它缺乏的是一个本应使破坏性行为不可能的边界,一个本应强制执行而非请求的开发与生产分离机制,以及一个值得信赖的操作记录。这些都不是模型的属性,而是围绕它的系统的属性。

这一点之所以重要,是因为失败正在成为一种模式,而这种模式正被误诊。Gartner预测,到2027年底,超过40%的代理式AI项目将被取消。MIT的Project NANDA发现,大约95%的企业生成式AI试点对底线没有产生可衡量的影响。标普全球报告称,公司在投产前放弃大部分AI举措的比例从17%上升到了42%。

快速浏览这些数字,听起来像是给模型判了死刑。但仔细阅读,它们主要是对运营的判决。Gartner列出的原因是成本不断上升、业务价值不明确以及风险控制不足。MIT将其称为学习差距:工具无法保留反馈或随时间改进。这些都不是对模型质量的抱怨。它们描述的是系统在没有使任何生产系统存活所需的部件的情况下就上线了。

我想在这里小心谨慎,因为“管道”论点可能被过度延伸。其中一些项目失败的原因与可靠性工程无关:数据差、需求不明确、从未有意义的用例、不愿改变工作方式的组织。这些都是真实的问题,但并非本文的重点。本文关注的是那些可以通过我们已经拥有的技术来预防的失败,只是这些技术被应用到了我们决定视为新事物的东西上。

生产代理悄然失败的五个地方,没有一个是不寻常的。

首先是评估。大多数团队无法自动判断代理的输出是好是坏。因此,质量回归上线了,第一个信号是客户。加拿大航空的网站聊天机器人告诉一名悲痛欲绝的乘客,他可以追溯申请丧亲票价,而这并非航空公司的政策。仲裁庭裁定航空公司承担责任,并驳回了其关于聊天机器人是独立实体、应对自身行为负责的论点。损失不大,但先例不小。没有任何自动检查来验证机器人的回答是否符合其所应代表的政策。正如Hamel Husain所言,不成功的AI产品几乎总有一个共同的根本原因:缺乏一种可靠的评估方式。

第二是可观测性。你无法修复你看不到的东西,而大多数代理是盲目运行的。Klarna在2024年初宣布,其AI助理完成了700名代理的工作,并在两分钟内解决了工单。但到2025年,该公司重新开始招聘人员,其CEO承认,对效率的关注导致了不可持续的低质量。显示解决率和处理时间的仪表盘是真实的。但它们是一个平均值,而平均值隐藏了分布。困难的工单、情感化的工单、决定客户是否留下的工单,在没有指标指向的地方逐渐恶化。Honeycomb的Phillip Carter将LLM描述为不可预测的黑盒,用于你无法提前预测的方式,如果你对产品在生产中的行为负责,这应该让你害怕。那些保持代理运行的团队将它们视为分布式系统,并对每一步进行检测。

第三是可逆性。七月份的数据库删除是一个清晰的例子,但它有一个更早的孪生兄弟。2012年,Knight Capital将新代码部署到七台服务器上,激活了第八台服务器上的休眠逻辑,并在45分钟内损失了超过4.6亿美元。没有自动的部署后检查,也没有业务层的终止开关。十三年间,尽管技术发生了变化,但教训是一样的:以机器速度进行不可逆的操作,没有停止的方法,也没有人关注正确的数字,这是一种设计为代价高昂的失败的系统。可逆性不是后来添加的功能。它包括回滚、幂等工具调用、有界重试以及在任何无法撤销的操作前设置的门禁。

第四是自主边界。代理应该能够执行一组已知的、枚举的事情,并且当它超出能力范围时,应该有明确的方式拒绝或升级。一家汽车经销商的聊天机器人被说服同意以1美元出售一辆雪佛兰Tahoe,用客户的话说,“不准反悔”。Cursor的支持代理为了解释一个错误,编造了一个不存在的订阅政策,导致用户取消订阅。这两个失败都不需要更智能的模型。它们都需要一个限制。提示注入连续第二版位列OWASP LLM应用十大风险之首,这再次说明,系统提示不是一个安全边界,也永远不会是。

第五是运营漂移。今天有效的代理不一定在下个季度仍然有效,因为输入变化、模型更新、上下文随之变化。DPD的聊天机器人在一次例行系统更新后,被激怒辱骂客户,并写了一首关于自己公司多么无用的诗。纽约市的官方商务聊天机器人自信地给出了违法的建议,告诉用户房东可以拒绝住房券,企业可以无现金运营。两者都没有定期重新评估,没有在客户之前捕捉行为变化的门禁,也没有一个负责长期可靠性的人。

值得为反对所有这些观点提出有力辩护,因为有两个反对意见是好的。第一个是模型改进如此之快,以至于可靠性层将被吸收到模型中。这有一定道理;每一代模型的幻觉更少,指令遵循更好。但可逆性、幂等性、范围权限、审计跟踪和人工检查点是围绕模型的系统的属性,而不是模型本身。更智能的代理仍然不应该对你的生产数据库拥有无限制的写权限。可靠性层正是那些不是模型的部分。第二个反对意见是评估是作秀。这是最尖锐的反对意见,而且部分正确:糟糕的评估制造虚假信心,比没有信心更糟糕。绿色的测试套件是快照,而生产是流。但糟糕评估的答案是良好评估加上可观测性,而不是两者都缺席。基于真实失败构建的领域特定检查、根据人工审查校准的判断器、从生产轨迹中刷新的评估集。评估和可观测性是互补的,将它们视为同一回事才是真正的错误。

如果你怀疑痛苦的现实,可以跟着钱走。现在有一个资金充足的创业公司类别,它们存在的目的就是销售这些管道。Braintrust以8亿美元的估值融资,LangChain超过10亿美元,Arize、Langfuse、Galileo、Patronus以及主要的可观测性供应商都在为代理构建评估和追踪产品。资本不是正确性的证明。但数亿美元流向一个论点——生产中的代理必须像真实系统一样被测试和监控——强烈表明问题实际上在哪里。

结论不是代理太危险而不能上线。它更狭义且更有用。代理是一个恰好是概率性的生产系统,它必须像真实系统一样被运营:由指定人员拥有,每次运行可观测,出错时可逆,在能力范围内受限,并随着周围世界的变化而重新评估。在存活的少数团队中,他们并非拥有更好的模型。每个人拥有的模型大致相同。他们是运营得更好的人。这就是全部的区别,也是你所能控制的部分。