賓州州立大學與杜克大學研究人員提出“多智能體系統自動化故障歸因”
針對LLM多智能體系統故障難以診斷的問題,研究人員首次定義了“自動化故障歸因”任務,構建了Who&When基準數據集,並評估了三種歸因方法。實驗表明,即使最佳方法在識別責任智能體上準確率僅53.5%,精確錯誤步驟僅14.2%,任務難度較高。該研究被ICML 2025接收為亮點論文。
近年來,基於大語言模型的多智能體系統在協作解決複雜問題方面引起了廣泛關注。然而,這些系統經常在任務中失敗,而開發者常常難以確定是哪個智能體、在哪個步驟導致了失敗。傳統的調試方式,如手動查閲日誌或依賴專家經驗,不僅效率低下,而且嚴重阻礙了系統的快速迭代和可靠性提升。
為了解決這一挑戰,來自賓州州立大學和杜克大學的研究人員,聯合Google DeepMind、華盛頓大學、Meta、南洋理工大學和俄勒岡州立大學,首次提出了“自動化故障歸因”這一研究問題。他們構建了首個用於該任務的基準數據集Who&When,並開發評估了多種自動化歸因方法。該論文已被頂級機器學習會議ICML 2025接收為亮點論文,代碼和數據集現已完全開源。
研究團隊定義的自動化故障歸因任務,旨在從多智能體系統的交互日誌中自動找出導致任務失敗的負責智能體及其決定性錯誤步驟。Who&When數據集收集了127個LLM多智能體系統的故障日誌,涵蓋算法生成和專家手工構建的場景,每個日誌都包含“誰”(負責智能體)、“何時”(錯誤步驟)和“為什麼”(自然語言解釋)的細粒度標註。
基於該數據集,論文設計了三種初始自動化歸因方法:
- 一次性方法:將用户查詢和完整日誌提供給LLM,一步到位找出責任智能體和錯誤步驟。成本低,但在長上下文中可能難以精確定位。
- 逐步方法:模擬人工調試,讓LLM逐步審查日誌,每步做出判斷直到發現錯誤。定位更精確,但成本高且可能累積錯誤。
- 二分搜索方法:反覆將日誌分成兩半,由LLM判斷錯誤所在半段,遞歸搜索,兼顧成本與性能。
實驗結果表明,當前方法遠非完美。最佳單一方法在識別責任智能體上的準確率僅約53.5%,而精確找出錯誤步驟的準確率僅為14.2%,部分方法甚至不如隨機猜測。不同方法各有優劣:一次性方法更擅長識別“誰”,逐步方法更擅長確定“何時”,二分搜索方法表現居中。組合方法雖有潛力,但計算成本顯著增加。
值得注意的是,即使是最先進的推理模型(如OpenAI o1和DeepSeek R1)也難以完成該任務,這凸顯了自動化故障歸因的固有難度。研究還發現,顯式要求LLM解釋推理過程可提升性能,而上下文長度增加會導致所有方法的性能下降。
該工作不僅揭示了多智能體系統調試中的關鍵挑戰,也為提高系統可靠性開闢了新路徑。未來,研究人員計劃進一步探索更高效的歸因方法,並擴展數據集以覆蓋更多場景。