SMAC-Talk: 面向大语言模型的星际争霸多智能体挑战的自然语言扩展
SMAC-Talk 是星际争霸多智能体挑战(SMAC)的自然语言扩展,专为评估基于大语言模型(LLM)的智能体在协作多智能体环境中的表现而设计。该环境保留了分散控制、部分可观测性和长期决策等关键特性,并新增了一个自然语言通信通道,用于探测智能体的协调与信任。研究设置了包含欺骗性通信者的场景,并使用 Qwen3.5 系列中的四个模型进行了基准测试,考察了推理结构、记忆和模型规模对协调的影响。SMAC-Talk 已作为开放基准发布。
随着大语言模型(LLM)的日益普及,它们不再仅仅作为独立系统运行,而是越来越多地被期望与其他 AI 智能体协同工作。然而,在不确定环境下实现有效协调需要智能体之间进行通信、信息共享和共同决策。为了应对这一挑战,研究人员提出了 SMAC-Talk,这是星际争霸多智能体挑战(SMAC)的一个自然语言扩展,专门用于评估基于 LLM 的智能体在协作多智能体环境中的表现。
SMAC-Talk 保留了原始 SMAC 的核心特性,包括分散控制(即没有中央协调器)、部分可观测性(每个智能体只能看到局部信息)以及长期决策(需要规划多个时间步)。在此基础上,它新增了一个自然语言通信通道,智能体可以通过该通道发送和接收文本消息。这一通道不仅用于正常的协作交流,还被用来构造特定的评估场景,例如嵌入一个欺骗性通信者,该通信者试图仅通过语言来破坏和欺骗盟友。这种设计旨在深入探测智能体的协调能力和信任机制。
为了建立基准,论文提供了三种不同的智能体实现,并使用 Qwen3.5 系列中的四个模型(包括不同规模)进行了实验。研究重点考察了推理结构(如是否使用思维链)、记忆(如历史消息的利用方式)以及模型规模对智能体之间协调效果的影响。结果表明,较大的模型和更完善的推理结构能够显著提升协作性能,而有效的记忆管理也对长期协调至关重要。
SMAC-Talk 已作为开放的基准测试平台发布,旨在支持研究社区在协作多智能体环境中开发和评估 LLM 智能体。该论文由 Joel Sol 及其一位合作者共同完成,于 2026 年 6 月 2 日提交至 arXiv。这一工作不仅为多智能体协调提供了标准化的测试环境,也为未来 LLM 在实际协作场景中的应用奠定了基础。