SMAC-Talk: 面向大語言模型的星際爭霸多智能體挑戰的自然語言擴展
SMAC-Talk 是星際爭霸多智能體挑戰(SMAC)的自然語言擴展,專為評估基於大語言模型(LLM)的智能體在協作多智能體環境中的表現而設計。該環境保留了分散控制、部分可觀測性和長期決策等關鍵特性,並新增了一個自然語言通信通道,用於探測智能體的協調與信任。研究設置了包含欺騙性通信者的場景,並使用 Qwen3.5 系列中的四個模型進行了基準測試,考察了推理結構、記憶和模型規模對協調的影響。SMAC-Talk 已作為開放基準發佈。
隨着大語言模型(LLM)的日益普及,它們不再僅僅作為獨立系統運行,而是越來越多地被期望與其他 AI 智能體協同工作。然而,在不確定環境下實現有效協調需要智能體之間進行通信、信息共享和共同決策。為了應對這一挑戰,研究人員提出了 SMAC-Talk,這是星際爭霸多智能體挑戰(SMAC)的一個自然語言擴展,專門用於評估基於 LLM 的智能體在協作多智能體環境中的表現。
SMAC-Talk 保留了原始 SMAC 的核心特性,包括分散控制(即沒有中央協調器)、部分可觀測性(每個智能體只能看到局部信息)以及長期決策(需要規劃多個時間步)。在此基礎上,它新增了一個自然語言通信通道,智能體可以通過該通道發送和接收文本消息。這一通道不僅用於正常的協作交流,還被用來構造特定的評估場景,例如嵌入一個欺騙性通信者,該通信者試圖僅通過語言來破壞和欺騙盟友。這種設計旨在深入探測智能體的協調能力和信任機制。
為了建立基準,論文提供了三種不同的智能體實現,並使用 Qwen3.5 系列中的四個模型(包括不同規模)進行了實驗。研究重點考察了推理結構(如是否使用思維鏈)、記憶(如歷史消息的利用方式)以及模型規模對智能體之間協調效果的影響。結果表明,較大的模型和更完善的推理結構能夠顯著提升協作性能,而有效的記憶管理也對長期協調至關重要。
SMAC-Talk 已作為開放的基準測試平台發佈,旨在支持研究社區在協作多智能體環境中開發和評估 LLM 智能體。該論文由 Joel Sol 及其一位合作者共同完成,於 2026 年 6 月 2 日提交至 arXiv。這一工作不僅為多智能體協調提供了標準化的測試環境,也為未來 LLM 在實際協作場景中的應用奠定了基礎。