2026-03-13 00:38 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

系統性調試AI智能體：微軟發佈AgentRx框架

微軟研究院開源AgentRx框架，用於自動診斷AI智能體故障。該框架通過約束合成和逐步守衞評估，精確定位首個不可恢復的故障步驟，相比基線方法定位準確率提升23.6%，根本原因歸因能力提升22.9%。同時發佈的AgentRx基準測試包含115條手動標註的失敗軌跡及九類故障分類體系。

來源Microsoft Research Blog作者: Shraddha Barke, Arnav Goyal, Alind Khare, Chetan Bansal

隨着AI智能體從簡單聊天機器人轉變為能夠管理雲事件、導航複雜Web界面和執行多步驟API工作流的自主系統，一個新的挑戰出現了：透明性。當人類犯錯時，我們通常可以追溯邏輯。但當AI智能體失敗時——比如幻覺工具輸出或在五十步任務中的第十步偏離安全策略——要準確確定失敗發生的位置和原因是一個艱鉅的手動過程。

今天，微軟研究院宣佈開源AgentRx（Agent Diagnosis），這是一個自動化的、領域無關的框架，旨在精確定位智能體軌跡中的“關鍵故障步驟”。同時發佈的AgentRx基準測試包含115條手動標註的失敗軌跡，幫助社區構建更透明、更具彈性的智能體系統。

現代AI智能體通常具有長程性（長時間執行大量操作）、概率性（同一輸入可能產生不同輸出）和多智能體性（故障可能在智能體間傳遞，掩蓋根本原因）。傳統的成功指標（如“任務是否完成”）不足以提供足夠信息。為了構建安全的智能體，我們需要識別軌跡變得不可恢復的確切時刻，並捕獲該步驟出錯的證據。

AgentRx採用結構化的多階段流程：首先進行軌跡歸一化，將來自不同領域的異構日誌轉換為通用中間表示；然後進行約束合成，基於工具模式（如“API必須返回有效的JSON響應”）和領域策略（如“未經用户確認不得刪除數據”）自動生成可執行的約束；接着進行守衞評估，逐步評估約束，僅在守衞條件滿足時檢查約束，並生成可審計的證據支持違規日誌；最後，LLM評判器使用驗證日誌和基於事實的故障分類法來識別關鍵故障步驟。

為了評估AgentRx，研究團隊開發了一個包含115條失敗軌跡的基準測試，涵蓋三個複雜領域：τ-bench（零售和服務的結構化API工作流）、Flash（現實世界的事件管理和系統故障排查）以及Magentic-One（通用多智能體系統的開放式網頁和文件任務）。通過基於理論的方法，他們推導出一個九類故障分類法，幫助開發者區分“計劃遵守失敗”（智能體忽略自身步驟）和“新信息捏造”（幻覺）等故障類型。

實驗結果顯示，AgentRx在故障定位準確率上實現了23.6%的絕對提升，在根本原因歸因上提升了22.9%。通過提供可審計的故障“原因”日誌，AgentRx使開發者能夠超越試錯式提示，轉向系統性的智能體工程。

微軟研究院已將AgentRx框架和完整的標註基準測試開源，邀請研究人員和開發者使用該框架診斷自己的智能體工作流，併為故障約束庫做出貢獻。