SCALE-COMM:用于多智能体强化学习通信的共享对比对齐潜在嵌入
SCALE-COMM是一种自监督框架,通过解耦通信学习与策略优化,学习紧凑、稳定且与策略相关的潜在消息,提升多智能体强化学习中的协调性能。在多个基准测试和实际仓库协调任务中,它优于现有方法,提高了稳定性、样本效率和吞吐量。
文章情报
要点
- SCALE-COMM将通信学习与策略优化解耦,减少干扰。
- 通过对比学习确保跨智能体和时间的一致性。
- 在标准和现实任务中均表现出更优的协调性能。
为什么重要
这条新闻值得关注,因为SCALE-COMM将通信学习与策略优化解耦,减少干扰。
技术影响
可能影响 Agent 架构、工具调用、工作流自动化和产品集成。
在分布式多智能体强化学习(MARL)中,自主移动机器人(AMR)通过涌现通信实现有效协调。然而,现有方法常面临通信协议不稳定、消息语义无根基以及通信学习与策略优化相互干扰等问题,导致协调性能随时间下降。为此,研究人员提出了SCALE-COMM(共享对比对齐潜在嵌入通信框架),这是一种自监督方法,旨在学习紧凑、稳定且与策略相关的通信表示。
SCALE-COMM的核心创新在于将通信学习与策略优化过程分离。它训练低维潜在消息,这些消息捕捉任务相关的规划与交通信息,并通过对比学习强制跨智能体和时间步的一致性。这种设计使得通信表示更加稳定,减少了对策略更新的干扰。
实验在多个标准MARL基准测试以及一个逼真的仓库协调任务中进行。结果显示,SCALE-COMM在表示质量和任务性能上均持续优于现有的通信框架。具体而言,学习到的通信空间在策略微调过程中表现出更好的稳定性、样本效率和吞吐量。这证明了以表示驱动的通信方法对于可扩展的多智能体协调的有效性。
该研究已发表于IEEE IV 2026,相关代码和数据可通过arXiv获取。SCALE-COMM为未来在更复杂场景中的多机器人协调提供了新的思路。该框架通过自监督学习避免了人工标注的需求,使得通信协议可以自动适应任务需求。对比学习机制确保了不同智能体在不同时间步发送的消息在语义上保持一致,从而提升了整体的协调稳定性。在仓库任务中,机器人需要避免碰撞并高效完成货物运输,SCALE-COMM显著减少了冲突并提高了任务完成率。实验还表明,该框架对策略微调具有鲁棒性,当策略更新时,通信表示不会发生剧烈变化,从而避免了重新学习通信协议的开销。总体而言,SCALE-COMM为多智能体系统中的通信学习提供了一种高效、稳定的解决方案。