系統性除錯AI智慧體:微軟釋出AgentRx框架
微軟研究院開源AgentRx框架,用於自動診斷AI智慧體故障。該框架透過約束合成和逐步守衛評估,精確定位首個不可恢復的故障步驟,相比基線方法定位準確率提升23.6%,根本原因歸因能力提升22.9%。同時釋出的AgentRx基準測試包含115條手動標註的失敗軌跡及九類故障分類體系。
隨著AI智慧體從簡單聊天機器人轉變為能夠管理雲事件、導航複雜Web介面和執行多步驟API工作流的自主系統,一個新的挑戰出現了:透明性。當人類犯錯時,我們通常可以追溯邏輯。但當AI智慧體失敗時——比如幻覺工具輸出或在五十步任務中的第十步偏離安全策略——要準確確定失敗發生的位置和原因是一個艱鉅的手動過程。
今天,微軟研究院宣佈開源AgentRx(Agent Diagnosis),這是一個自動化的、領域無關的框架,旨在精確定位智慧體軌跡中的“關鍵故障步驟”。同時釋出的AgentRx基準測試包含115條手動標註的失敗軌跡,幫助社群構建更透明、更具彈性的智慧體系統。
現代AI智慧體通常具有長程性(長時間執行大量操作)、機率性(同一輸入可能產生不同輸出)和多智慧體性(故障可能在智慧體間傳遞,掩蓋根本原因)。傳統的成功指標(如“任務是否完成”)不足以提供足夠資訊。為了構建安全的智慧體,我們需要識別軌跡變得不可恢復的確切時刻,並捕獲該步驟出錯的證據。
AgentRx採用結構化的多階段流程:首先進行軌跡歸一化,將來自不同領域的異構日誌轉換為通用中間表示;然後進行約束合成,基於工具模式(如“API必須返回有效的JSON響應”)和領域策略(如“未經使用者確認不得刪除資料”)自動生成可執行的約束;接著進行守衛評估,逐步評估約束,僅在守衛條件滿足時檢查約束,並生成可審計的證據支援違規日誌;最後,LLM評判器使用驗證日誌和基於事實的故障分類法來識別關鍵故障步驟。
為了評估AgentRx,研究團隊開發了一個包含115條失敗軌跡的基準測試,涵蓋三個複雜領域:τ-bench(零售和服務的結構化API工作流)、Flash(現實世界的事件管理和系統故障排查)以及Magentic-One(通用多智慧體系統的開放式網頁和檔案任務)。透過基於理論的方法,他們推匯出一個九類故障分類法,幫助開發者區分“計劃遵守失敗”(智慧體忽略自身步驟)和“新資訊捏造”(幻覺)等故障型別。
實驗結果顯示,AgentRx在故障定位準確率上實現了23.6%的絕對提升,在根本原因歸因上提升了22.9%。透過提供可審計的故障“原因”日誌,AgentRx使開發者能夠超越試錯式提示,轉向系統性的智慧體工程。
微軟研究院已將AgentRx框架和完整的標註基準測試開源,邀請研究人員和開發者使用該框架診斷自己的智慧體工作流,併為故障約束庫做出貢獻。