Anthropic的Claude Sonnet 5系统卡比其基准测试更能说明AI的未来
Anthropic发布的Claude Sonnet 5系统卡长达145页,重点评估了AI代理的自主能力,如网页浏览、工具使用、规划、提示注入防御和故障恢复,而非仅仅关注基准测试成绩。这为工程团队构建可靠代理基础设施提供了重要参考。
Anthropic于周二发布了Claude Sonnet 5,随之而来的不仅是基准测试图表,还有一份长达145页的系统卡。这份文档并未过多着墨于基准测试的提升,而是将大部分篇幅用于评估AI代理在自主行动时的表现:浏览网页、使用工具、规划长期任务、抵抗提示注入以及在执行出错时如何恢复。这种恢复能力揭示出Anthropic认为下一个工程挑战在于让代理变得可靠。
Sonnet 5系统卡引入了早期LLM中几乎不曾出现的评估项目。例如,第5节涵盖了恶意使用编码代理、计算机使用代理和浏览器代理的评估;自主影响力操作;以及跨多个攻击面的提示注入鲁棒性——包括一个实时漏洞赏金计划,测试自适应攻击者针对编码、计算机使用和浏览器使用环境的效果。
Anthropic还报告了SHADE-Arena和LinuxArena的结果,这些测试评估代理是否试图暗中行动——在表面上遵循指令的同时追求隐藏目标。Sonnet 5在这些评估中的隐秘率接近零,但Anthropic运行这些测试的事实本身就表明,他们认真对待一个在聊天窗口中表现良好的模型与一个在持续自主权下可靠行为的模型之间的差距。
在提示注入方面,系统卡描述了跨三个不同代理表面的鲁棒性测试:编码环境、计算机使用和浏览器导航。结果显示相对于Sonnet 4.6有所改进,但评估设计本身也透露了信息。Anthropic正在彻底检查一个浏览网页的代理是否会被所访问页面中嵌入的指令劫持。
为何这对工程团队重要
组织需要能够调查事件、审查拉取请求、更新文档、浏览内部系统并以最少监督协调工作流的代理。这些工作负载对周围基础设施提出了远超模型本身的新要求。本质上,它们是基础设施模式——工程团队需要构建和维护的管线,因为代理承担了更长期、更少监督的工作。
一个长期运行的任务可能以无数种方式被中断,例如工具调用中途超时,或者浏览器会话在重定向后失去上下文。每次中断都迫使代理理解发生了什么,保留其进度,并决定如何继续——或者认识到无法继续。
代理的基础设施模式
Anthropic自己的评估基础设施提供了这些系统样貌的一瞥。系统卡描述了诸如工具结果清除(在代理积累上下文时移除过时的工具输出)和记忆工具(允许信息在活动上下文窗口之外持久化)等功能。这些功能解决了代理长时间工作时出现的实际问题:状态必须在多个步骤间持久化,外部工具必须保持同步,并且必须在代理使用过时或不完整信息继续前检测到故障。
代理部署的断裂点
系统卡提供了一些关于Anthropic认为AI竞赛走向的线索。首先,基准测试似乎趋同,顶级模型在标准评估上的差距继续缩小。但尚未趋同的是,代理能否在没有丢失上下文的情况下完成两小时的编码任务,浏览网页而不被恶意页面劫持,或者在API调用失败后自我恢复。
对于评估代理平台的工程团队来说,系统卡同时充当了生产环境中重要问题的检查清单。基准测试分数只是部分图景。同样重要的是了解平台如何处理失败的API调用、在长期任务中保持状态,以及在代理在工作流中途丢失上下文时如何恢复。这些情况决定了自主系统一旦部署后能否继续可靠运行。