哪個代理導致任務失敗以及何時?PSU和杜克大學研究人員探索LLM多代理系統的自動故障歸因
來自賓夕法尼亞州立大學和杜克大學的研究人員,聯合Google DeepMind等機構,提出了LLM多代理系統中自動故障歸因的問題。他們構建了Who&When基準資料集,並評估了All-at-Once、Step-by-Step和Binary Search等方法。該工作被ICML 2025接收為亮點論文,旨在幫助開發者快速定位導致故障的代理及其錯誤步驟。當前方法在識別責任代理上準確率僅達53.5%,在定位錯誤步驟上僅14.2%。
近年來,基於大語言模型的多代理系統因其協作解決複雜問題的能力而備受關注。然而,這些系統在任務執行過程中頻繁失敗,而開發者往往難以從大量的互動日誌中找出根源。為了應對這一挑戰,賓夕法尼亞州立大學和杜克大學的研究人員,聯合Google DeepMind、華盛頓大學、Meta、南洋理工大學和俄勒岡州立大學,首次提出了“自動故障歸因”問題,並構建了首個基準資料集Who&When。該研究已被頂級機器學習會議ICML 2025接收為亮點論文,相關程式碼和資料集已完全開源。
研究背景與挑戰
LLM驅動的多代理系統在許多領域展現出巨大潛力,但其脆弱性不容忽視。單個代理的錯誤、代理間的誤解或資訊傳遞失誤都可能導致整個任務失敗。目前,當系統發生故障時,開發者通常採取手動審查日誌的方式,這種方法不僅耗時,而且高度依賴專家經驗。這種“大海撈針”式的除錯嚴重阻礙了系統迭代和可靠性提升。因此,亟需一種自動化、系統化的方法來精準定位故障原因。
核心貢獻
該研究首次將“自動故障歸因”形式化為一個明確的研究任務,即識別導致任務失敗的責任代理和關鍵錯誤步驟。為此,他們構建了Who&When資料集,包含來自127個LLM多代理系統的各種故障日誌,這些日誌透過演算法生成或專家手工構建,確保了真實性和多樣性。每個故障日誌都附有細粒度的人工標註,包括責任代理(Who)、錯誤步驟(When)以及故障原因的自然語言解釋(Why)。
基於該資料集,研究者設計並評估了三種自動歸因方法:
- 一次性方法(All-at-Once):向大模型提供使用者查詢和完整故障日誌,要求其一次性識別責任代理和錯誤步驟。該方法成本低,但在長上下文中可能難以精確定位。
- 逐步方法(Step-by-Step):模擬手動除錯過程,讓大模型逐步審查互動日誌,每步做出判斷,直至找到錯誤。該方法定位更精確,但成本高且易累積錯誤。
- 二分搜尋方法(Binary Search):在成本和效能間取得平衡,透過反覆將日誌對半分割,利用大模型判斷錯誤所在段落,然後遞迴搜尋。
實驗結果與發現
實驗在兩種設定下進行:大模型知道任務正確答案(有標準答案)和不知道(無標準答案)。主要使用GPT-4o,同時也測試了其他模型。系統評估得出以下重要發現:
- 距離完美仍有很大差距:即使最佳方法在識別責任代理上的準確率也僅為53.5%,而定位錯誤步驟的準確率僅14.2%,部分方法甚至不如隨機猜測。
- 沒有萬能的解決方案:不同方法在不同方面表現各異,一次性方法更擅長識別“誰”,而逐步方法更擅長確定“何時”。
- 混合方法有潛力但成本高:結合一次性方法識別代理和逐步方法查詢錯誤可提高效能,但計算成本顯著增加。
- 最先進模型也面臨挑戰:即使OpenAI o1和DeepSeek R1等高階推理模型也難以勝任此任務,凸顯了自動故障歸因的固有難度。
- 顯式推理的重要性:在一次性方法和逐步方法中提供顯式推理提示可改善效能。
- 上下文長度是限制因素:隨著故障日誌上下文長度增加,所有方法的效能均下降,對錯誤步驟定位的影響尤為明顯。
未來展望
“自動故障歸因”是多代理系統開發生命週期中的關鍵組成部分,有望將“出了什麼問題、誰該負責”的困惑轉化為可量化、可分析的問題。透過在評估與改進之間架起橋樑,最終可以建立更可靠、更智慧、更值得信賴的多代理系統。