2025-08-14 14:31 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

哪个代理导致任务失败以及何时？PSU和杜克大学研究人员探索LLM多代理系统的自动故障归因

来自宾夕法尼亚州立大学和杜克大学的研究人员，联合Google DeepMind等机构，提出了LLM多代理系统中自动故障归因的问题。他们构建了Who&When基准数据集，并评估了All-at-Once、Step-by-Step和Binary Search等方法。该工作被ICML 2025接收为亮点论文，旨在帮助开发者快速定位导致故障的代理及其错误步骤。当前方法在识别责任代理上准确率仅达53.5%，在定位错误步骤上仅14.2%。

来源Synced Review作者: Synced

近年来，基于大语言模型的多代理系统因其协作解决复杂问题的能力而备受关注。然而，这些系统在任务执行过程中频繁失败，而开发者往往难以从大量的交互日志中找出根源。为了应对这一挑战，宾夕法尼亚州立大学和杜克大学的研究人员，联合Google DeepMind、华盛顿大学、Meta、南洋理工大学和俄勒冈州立大学，首次提出了“自动故障归因”问题，并构建了首个基准数据集Who&When。该研究已被顶级机器学习会议ICML 2025接收为亮点论文，相关代码和数据集已完全开源。

研究背景与挑战

LLM驱动的多代理系统在许多领域展现出巨大潜力，但其脆弱性不容忽视。单个代理的错误、代理间的误解或信息传递失误都可能导致整个任务失败。目前，当系统发生故障时，开发者通常采取手动审查日志的方式，这种方法不仅耗时，而且高度依赖专家经验。这种“大海捞针”式的调试严重阻碍了系统迭代和可靠性提升。因此，亟需一种自动化、系统化的方法来精准定位故障原因。

核心贡献

该研究首次将“自动故障归因”形式化为一个明确的研究任务，即识别导致任务失败的责任代理和关键错误步骤。为此，他们构建了Who&When数据集，包含来自127个LLM多代理系统的各种故障日志，这些日志通过算法生成或专家手工构建，确保了真实性和多样性。每个故障日志都附有细粒度的人工标注，包括责任代理（Who）、错误步骤（When）以及故障原因的自然语言解释（Why）。

基于该数据集，研究者设计并评估了三种自动归因方法：

一次性方法（All-at-Once）：向大模型提供用户查询和完整故障日志，要求其一次性识别责任代理和错误步骤。该方法成本低，但在长上下文中可能难以精确定位。
逐步方法（Step-by-Step）：模拟手动调试过程，让大模型逐步审查交互日志，每步做出判断，直至找到错误。该方法定位更精确，但成本高且易累积错误。
二分搜索方法（Binary Search）：在成本和性能间取得平衡，通过反复将日志对半分割，利用大模型判断错误所在段落，然后递归搜索。

实验结果与发现

实验在两种设置下进行：大模型知道任务正确答案（有标准答案）和不知道（无标准答案）。主要使用GPT-4o，同时也测试了其他模型。系统评估得出以下重要发现：

距离完美仍有很大差距：即使最佳方法在识别责任代理上的准确率也仅为53.5%，而定位错误步骤的准确率仅14.2%，部分方法甚至不如随机猜测。
没有万能的解决方案：不同方法在不同方面表现各异，一次性方法更擅长识别“谁”，而逐步方法更擅长确定“何时”。
混合方法有潜力但成本高：结合一次性方法识别代理和逐步方法查找错误可提高性能，但计算成本显著增加。
最先进模型也面临挑战：即使OpenAI o1和DeepSeek R1等高级推理模型也难以胜任此任务，凸显了自动故障归因的固有难度。
显式推理的重要性：在一次性方法和逐步方法中提供显式推理提示可改善性能。
上下文长度是限制因素：随着故障日志上下文长度增加，所有方法的性能均下降，对错误步骤定位的影响尤为明显。

未来展望

“自动故障归因”是多代理系统开发生命周期中的关键组成部分，有望将“出了什么问题、谁该负责”的困惑转化为可量化、可分析的问题。通过在评估与改进之间架起桥梁，最终可以创建更可靠、更智能、更值得信赖的多代理系统。