多智慧體團隊拖累專家表現
研究發現,自組織的多智慧體LLM團隊在協調時往往無法達到最佳專家成員的表現,效能損失最高達41.1%。主要瓶頸在於未能有效利用專家意見,而非識別專家。團隊傾向於整合妥協,這雖然提高了對對抗性智慧體的魯棒性,但犧牲了整體效能。
近年來,隨著大語言模型(LLM)的快速發展,多智慧體系統被廣泛部署為自主協作單元。在這些系統中,智慧體之間自由互動,而非執行預定義的固定工作流程。這種設計使得有效的協調無法完全預先設計,而必須透過互動自然湧現。然而,先前的研究通常透過固定角色、工作流或聚合規則來強制執行協調,對於無約束條件下自組織團隊的表現,仍是一個開放問題。
受組織心理學啟發,斯坦福大學和埃默裡大學的研究人員聯合開展了一項研究,旨在探討自組織LLM團隊是否能實現強協同——即團隊績效達到或超過最佳個體成員。研究團隊在人類啟發的基準測試和前沿機器學習基準上進行了實驗,結果發現,與人類團隊不同,LLM團隊始終無法達到其專家智慧體的表現,即使在明確告知誰是專家的情況下也是如此。在機器學習基準上,效能損失高達41.1%。
進一步分解這一失敗原因,研究人員發現,主要瓶頸並非識別專家的困難,而是對專家意見的利用不足。透過對團隊對話的分析,他們揭示了一種向“整合妥協”的傾向——即平均處理專家和非專家的觀點,而非根據專業程度進行適當加權。這種整合妥協行為隨團隊規模的增大而加劇,並與績效呈負相關。有趣的是,這種尋求共識的行為提高了團隊對對抗性智慧體的魯棒性,表明在團隊一致性與有效利用專家知識之間存在一種權衡。
這項研究由斯坦福大學的Aneesh Pappu、Batu El、James Zou等人以及埃默裡大學的Hancheng Cao共同完成,論文發表於2026年7月。研究結果揭示了自組織多智慧體團隊在利用集體專業知識方面的顯著差距,為未來設計更有效的多智慧體協作系統提供了重要啟示。理解這一差距有助於開發能夠更好地平衡協作與專家權威的新方法,例如透過動態角色分配或加權投票機制來提升團隊整體效能。