宾州州立大学与杜克大学研究人员提出“多智能体系统自动化故障归因”
针对LLM多智能体系统故障难以诊断的问题,研究人员首次定义了“自动化故障归因”任务,构建了Who&When基准数据集,并评估了三种归因方法。实验表明,即使最佳方法在识别责任智能体上准确率仅53.5%,精确错误步骤仅14.2%,任务难度较高。该研究被ICML 2025接收为亮点论文。
近年来,基于大语言模型的多智能体系统在协作解决复杂问题方面引起了广泛关注。然而,这些系统经常在任务中失败,而开发者常常难以确定是哪个智能体、在哪个步骤导致了失败。传统的调试方式,如手动查阅日志或依赖专家经验,不仅效率低下,而且严重阻碍了系统的快速迭代和可靠性提升。
为了解决这一挑战,来自宾州州立大学和杜克大学的研究人员,联合Google DeepMind、华盛顿大学、Meta、南洋理工大学和俄勒冈州立大学,首次提出了“自动化故障归因”这一研究问题。他们构建了首个用于该任务的基准数据集Who&When,并开发评估了多种自动化归因方法。该论文已被顶级机器学习会议ICML 2025接收为亮点论文,代码和数据集现已完全开源。
研究团队定义的自动化故障归因任务,旨在从多智能体系统的交互日志中自动找出导致任务失败的负责智能体及其决定性错误步骤。Who&When数据集收集了127个LLM多智能体系统的故障日志,涵盖算法生成和专家手工构建的场景,每个日志都包含“谁”(负责智能体)、“何时”(错误步骤)和“为什么”(自然语言解释)的细粒度标注。
基于该数据集,论文设计了三种初始自动化归因方法:
- 一次性方法:将用户查询和完整日志提供给LLM,一步到位找出责任智能体和错误步骤。成本低,但在长上下文中可能难以精确定位。
- 逐步方法:模拟人工调试,让LLM逐步审查日志,每步做出判断直到发现错误。定位更精确,但成本高且可能累积错误。
- 二分搜索方法:反复将日志分成两半,由LLM判断错误所在半段,递归搜索,兼顾成本与性能。
实验结果表明,当前方法远非完美。最佳单一方法在识别责任智能体上的准确率仅约53.5%,而精确找出错误步骤的准确率仅为14.2%,部分方法甚至不如随机猜测。不同方法各有优劣:一次性方法更擅长识别“谁”,逐步方法更擅长确定“何时”,二分搜索方法表现居中。组合方法虽有潜力,但计算成本显著增加。
值得注意的是,即使是最先进的推理模型(如OpenAI o1和DeepSeek R1)也难以完成该任务,这凸显了自动化故障归因的固有难度。研究还发现,显式要求LLM解释推理过程可提升性能,而上下文长度增加会导致所有方法的性能下降。
该工作不仅揭示了多智能体系统调试中的关键挑战,也为提高系统可靠性开辟了新路径。未来,研究人员计划进一步探索更高效的归因方法,并扩展数据集以覆盖更多场景。