AI News HubLIVE
站內改寫2 分鐘閱讀

系統性調試AI智能體:微軟發佈AgentRx框架

微軟研究院開源AgentRx框架,用於自動診斷AI智能體故障。該框架通過約束合成和逐步守衞評估,精確定位首個不可恢復的故障步驟,相比基線方法定位準確率提升23.6%,根本原因歸因能力提升22.9%。同時發佈的AgentRx基準測試包含115條手動標註的失敗軌跡及九類故障分類體系。

來源Microsoft Research Blog作者: Shraddha Barke, Arnav Goyal, Alind Khare, Chetan Bansal

隨着AI智能體從簡單聊天機器人轉變為能夠管理雲事件、導航複雜Web界面和執行多步驟API工作流的自主系統,一個新的挑戰出現了:透明性。當人類犯錯時,我們通常可以追溯邏輯。但當AI智能體失敗時——比如幻覺工具輸出或在五十步任務中的第十步偏離安全策略——要準確確定失敗發生的位置和原因是一個艱鉅的手動過程。

今天,微軟研究院宣佈開源AgentRx(Agent Diagnosis),這是一個自動化的、領域無關的框架,旨在精確定位智能體軌跡中的“關鍵故障步驟”。同時發佈的AgentRx基準測試包含115條手動標註的失敗軌跡,幫助社區構建更透明、更具彈性的智能體系統。

現代AI智能體通常具有長程性(長時間執行大量操作)、概率性(同一輸入可能產生不同輸出)和多智能體性(故障可能在智能體間傳遞,掩蓋根本原因)。傳統的成功指標(如“任務是否完成”)不足以提供足夠信息。為了構建安全的智能體,我們需要識別軌跡變得不可恢復的確切時刻,並捕獲該步驟出錯的證據。

AgentRx採用結構化的多階段流程:首先進行軌跡歸一化,將來自不同領域的異構日誌轉換為通用中間表示;然後進行約束合成,基於工具模式(如“API必須返回有效的JSON響應”)和領域策略(如“未經用户確認不得刪除數據”)自動生成可執行的約束;接着進行守衞評估,逐步評估約束,僅在守衞條件滿足時檢查約束,並生成可審計的證據支持違規日誌;最後,LLM評判器使用驗證日誌和基於事實的故障分類法來識別關鍵故障步驟。

為了評估AgentRx,研究團隊開發了一個包含115條失敗軌跡的基準測試,涵蓋三個複雜領域:τ-bench(零售和服務的結構化API工作流)、Flash(現實世界的事件管理和系統故障排查)以及Magentic-One(通用多智能體系統的開放式網頁和文件任務)。通過基於理論的方法,他們推導出一個九類故障分類法,幫助開發者區分“計劃遵守失敗”(智能體忽略自身步驟)和“新信息捏造”(幻覺)等故障類型。

實驗結果顯示,AgentRx在故障定位準確率上實現了23.6%的絕對提升,在根本原因歸因上提升了22.9%。通過提供可審計的故障“原因”日誌,AgentRx使開發者能夠超越試錯式提示,轉向系統性的智能體工程。

微軟研究院已將AgentRx框架和完整的標註基準測試開源,邀請研究人員和開發者使用該框架診斷自己的智能體工作流,併為故障約束庫做出貢獻。