SMAC-Talk: 面向大語言模型的星際爭霸多智慧體挑戰的自然語言擴充套件
SMAC-Talk 是星際爭霸多智慧體挑戰(SMAC)的自然語言擴充套件,專為評估基於大語言模型(LLM)的智慧體在協作多智慧體環境中的表現而設計。該環境保留了分散控制、部分可觀測性和長期決策等關鍵特性,並新增了一個自然語言通訊通道,用於探測智慧體的協調與信任。研究設定了包含欺騙性通訊者的場景,並使用 Qwen3.5 系列中的四個模型進行了基準測試,考察了推理結構、記憶和模型規模對協調的影響。SMAC-Talk 已作為開放基準釋出。
隨著大語言模型(LLM)的日益普及,它們不再僅僅作為獨立系統執行,而是越來越多地被期望與其他 AI 智慧體協同工作。然而,在不確定環境下實現有效協調需要智慧體之間進行通訊、資訊共享和共同決策。為了應對這一挑戰,研究人員提出了 SMAC-Talk,這是星際爭霸多智慧體挑戰(SMAC)的一個自然語言擴充套件,專門用於評估基於 LLM 的智慧體在協作多智慧體環境中的表現。
SMAC-Talk 保留了原始 SMAC 的核心特性,包括分散控制(即沒有中央協調器)、部分可觀測性(每個智慧體只能看到區域性資訊)以及長期決策(需要規劃多個時間步)。在此基礎上,它新增了一個自然語言通訊通道,智慧體可以透過該通道傳送和接收文本訊息。這一通道不僅用於正常的協作交流,還被用來構造特定的評估場景,例如嵌入一個欺騙性通訊者,該通訊者試圖僅透過語言來破壞和欺騙盟友。這種設計旨在深入探測智慧體的協調能力和信任機制。
為了建立基準,論文提供了三種不同的智慧體實現,並使用 Qwen3.5 系列中的四個模型(包括不同規模)進行了實驗。研究重點考察了推理結構(如是否使用思維鏈)、記憶(如歷史訊息的利用方式)以及模型規模對智慧體之間協調效果的影響。結果表明,較大的模型和更完善的推理結構能夠顯著提升協作效能,而有效的記憶管理也對長期協調至關重要。
SMAC-Talk 已作為開放的基準測試平臺釋出,旨在支援研究社群在協作多智慧體環境中開發和評估 LLM 智慧體。該論文由 Joel Sol 及其一位合作者共同完成,於 2026 年 6 月 2 日提交至 arXiv。這一工作不僅為多智慧體協調提供了標準化的測試環境,也為未來 LLM 在實際協作場景中的應用奠定了基礎。