2026-03-13 00:38 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

系统性调试AI智能体：微软发布AgentRx框架

微软研究院开源AgentRx框架，用于自动诊断AI智能体故障。该框架通过约束合成和逐步守卫评估，精确定位首个不可恢复的故障步骤，相比基线方法定位准确率提升23.6%，根本原因归因能力提升22.9%。同时发布的AgentRx基准测试包含115条手动标注的失败轨迹及九类故障分类体系。

来源Microsoft Research Blog作者: Shraddha Barke, Arnav Goyal, Alind Khare, Chetan Bansal

随着AI智能体从简单聊天机器人转变为能够管理云事件、导航复杂Web界面和执行多步骤API工作流的自主系统，一个新的挑战出现了：透明性。当人类犯错时，我们通常可以追溯逻辑。但当AI智能体失败时——比如幻觉工具输出或在五十步任务中的第十步偏离安全策略——要准确确定失败发生的位置和原因是一个艰巨的手动过程。

今天，微软研究院宣布开源AgentRx（Agent Diagnosis），这是一个自动化的、领域无关的框架，旨在精确定位智能体轨迹中的“关键故障步骤”。同时发布的AgentRx基准测试包含115条手动标注的失败轨迹，帮助社区构建更透明、更具弹性的智能体系统。

现代AI智能体通常具有长程性（长时间执行大量操作）、概率性（同一输入可能产生不同输出）和多智能体性（故障可能在智能体间传递，掩盖根本原因）。传统的成功指标（如“任务是否完成”）不足以提供足够信息。为了构建安全的智能体，我们需要识别轨迹变得不可恢复的确切时刻，并捕获该步骤出错的证据。

AgentRx采用结构化的多阶段流程：首先进行轨迹归一化，将来自不同领域的异构日志转换为通用中间表示；然后进行约束合成，基于工具模式（如“API必须返回有效的JSON响应”）和领域策略（如“未经用户确认不得删除数据”）自动生成可执行的约束；接着进行守卫评估，逐步评估约束，仅在守卫条件满足时检查约束，并生成可审计的证据支持违规日志；最后，LLM评判器使用验证日志和基于事实的故障分类法来识别关键故障步骤。

为了评估AgentRx，研究团队开发了一个包含115条失败轨迹的基准测试，涵盖三个复杂领域：τ-bench（零售和服务的结构化API工作流）、Flash（现实世界的事件管理和系统故障排查）以及Magentic-One（通用多智能体系统的开放式网页和文件任务）。通过基于理论的方法，他们推导出一个九类故障分类法，帮助开发者区分“计划遵守失败”（智能体忽略自身步骤）和“新信息捏造”（幻觉）等故障类型。

实验结果显示，AgentRx在故障定位准确率上实现了23.6%的绝对提升，在根本原因归因上提升了22.9%。通过提供可审计的故障“原因”日志，AgentRx使开发者能够超越试错式提示，转向系统性的智能体工程。

微软研究院已将AgentRx框架和完整的标注基准测试开源，邀请研究人员和开发者使用该框架诊断自己的智能体工作流，并为故障约束库做出贡献。