AI News HubLIVE
站内改写2 分钟阅读

系统性调试AI智能体:微软发布AgentRx框架

微软研究院开源AgentRx框架,用于自动诊断AI智能体故障。该框架通过约束合成和逐步守卫评估,精确定位首个不可恢复的故障步骤,相比基线方法定位准确率提升23.6%,根本原因归因能力提升22.9%。同时发布的AgentRx基准测试包含115条手动标注的失败轨迹及九类故障分类体系。

来源Microsoft Research Blog作者: Shraddha Barke, Arnav Goyal, Alind Khare, Chetan Bansal

随着AI智能体从简单聊天机器人转变为能够管理云事件、导航复杂Web界面和执行多步骤API工作流的自主系统,一个新的挑战出现了:透明性。当人类犯错时,我们通常可以追溯逻辑。但当AI智能体失败时——比如幻觉工具输出或在五十步任务中的第十步偏离安全策略——要准确确定失败发生的位置和原因是一个艰巨的手动过程。

今天,微软研究院宣布开源AgentRx(Agent Diagnosis),这是一个自动化的、领域无关的框架,旨在精确定位智能体轨迹中的“关键故障步骤”。同时发布的AgentRx基准测试包含115条手动标注的失败轨迹,帮助社区构建更透明、更具弹性的智能体系统。

现代AI智能体通常具有长程性(长时间执行大量操作)、概率性(同一输入可能产生不同输出)和多智能体性(故障可能在智能体间传递,掩盖根本原因)。传统的成功指标(如“任务是否完成”)不足以提供足够信息。为了构建安全的智能体,我们需要识别轨迹变得不可恢复的确切时刻,并捕获该步骤出错的证据。

AgentRx采用结构化的多阶段流程:首先进行轨迹归一化,将来自不同领域的异构日志转换为通用中间表示;然后进行约束合成,基于工具模式(如“API必须返回有效的JSON响应”)和领域策略(如“未经用户确认不得删除数据”)自动生成可执行的约束;接着进行守卫评估,逐步评估约束,仅在守卫条件满足时检查约束,并生成可审计的证据支持违规日志;最后,LLM评判器使用验证日志和基于事实的故障分类法来识别关键故障步骤。

为了评估AgentRx,研究团队开发了一个包含115条失败轨迹的基准测试,涵盖三个复杂领域:τ-bench(零售和服务的结构化API工作流)、Flash(现实世界的事件管理和系统故障排查)以及Magentic-One(通用多智能体系统的开放式网页和文件任务)。通过基于理论的方法,他们推导出一个九类故障分类法,帮助开发者区分“计划遵守失败”(智能体忽略自身步骤)和“新信息捏造”(幻觉)等故障类型。

实验结果显示,AgentRx在故障定位准确率上实现了23.6%的绝对提升,在根本原因归因上提升了22.9%。通过提供可审计的故障“原因”日志,AgentRx使开发者能够超越试错式提示,转向系统性的智能体工程。

微软研究院已将AgentRx框架和完整的标注基准测试开源,邀请研究人员和开发者使用该框架诊断自己的智能体工作流,并为故障约束库做出贡献。