2026-07-02 08:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 01:31 UTC+8

多智能体团队拖累专家表现

研究发现，自组织的多智能体LLM团队在协调时往往无法达到最佳专家成员的表现，性能损失最高达41.1%。主要瓶颈在于未能有效利用专家意见，而非识别专家。团队倾向于整合妥协，这虽然提高了对对抗性智能体的鲁棒性，但牺牲了整体性能。

近年来，随着大语言模型（LLM）的快速发展，多智能体系统被广泛部署为自主协作单元。在这些系统中，智能体之间自由交互，而非执行预定义的固定工作流程。这种设计使得有效的协调无法完全预先设计，而必须通过交互自然涌现。然而，先前的研究通常通过固定角色、工作流或聚合规则来强制执行协调，对于无约束条件下自组织团队的表现，仍是一个开放问题。

受组织心理学启发，斯坦福大学和埃默里大学的研究人员联合开展了一项研究，旨在探讨自组织LLM团队是否能实现强协同——即团队绩效达到或超过最佳个体成员。研究团队在人类启发的基准测试和前沿机器学习基准上进行了实验，结果发现，与人类团队不同，LLM团队始终无法达到其专家智能体的表现，即使在明确告知谁是专家的情况下也是如此。在机器学习基准上，性能损失高达41.1%。

进一步分解这一失败原因，研究人员发现，主要瓶颈并非识别专家的困难，而是对专家意见的利用不足。通过对团队对话的分析，他们揭示了一种向“整合妥协”的倾向——即平均处理专家和非专家的观点，而非根据专业程度进行适当加权。这种整合妥协行为随团队规模的增大而加剧，并与绩效呈负相关。有趣的是，这种寻求共识的行为提高了团队对对抗性智能体的鲁棒性，表明在团队一致性与有效利用专家知识之间存在一种权衡。

这项研究由斯坦福大学的Aneesh Pappu、Batu El、James Zou等人以及埃默里大学的Hancheng Cao共同完成，论文发表于2026年7月。研究结果揭示了自组织多智能体团队在利用集体专业知识方面的显著差距，为未来设计更有效的多智能体协作系统提供了重要启示。理解这一差距有助于开发能够更好地平衡协作与专家权威的新方法，例如通过动态角色分配或加权投票机制来提升团队整体性能。