2026-06-18站内改写1 分钟阅读更新: 2026-06-18

R2D-RL：面向多智能体强化学习的RoboCup 2D足球环境

R2D-RL是一个基于RoboCup 2D足球仿真平台的多智能体强化学习环境，通过共享内存和周期级同步连接Python MARL接口，支持全场/场景训练、可配置对手、混合动作空间、EPV奖励塑造和并行执行。

来源arXiv AI作者: Haobin Qin, Baofeng Zhang, Hidehisa Akiyama, Keisuke Fujii

多智能体强化学习（MARL）在机器人足球等复杂任务中面临部分可观测性、合作与对抗交互、稀疏奖励和长期战术规划等挑战。RoboCup 2D足球仿真平台（RCSS2D）是一个成熟的仿真环境，但其面向竞赛的服务器-客户端架构与现代Python MARL工作流兼容性较差。为此，研究者提出了R2D-RL——一个将RCSS2D与HELIOS基础玩家客户端通过共享内存通信和周期级同步连接到Python MARL接口的强化学习环境。

R2D-RL支持全场和基于场景的训练，包括可配置对手、基础离散和混合参数化动作空间、动作掩码、基于预期控球值（EPV）的奖励塑造以及并行执行。环境提供了前端球门场景和11对11全场基准测试，并包含基线结果。这些特性使得R2D-RL成为MARL研究的有力工具，尤其适合需要复杂战术行为的场景。

通过EPV奖励塑造，智能体可以学习更接近真实足球的控球策略。混合动作空间允许同时使用离散动作（如传球）和连续参数（如力量）。并行执行加速了训练过程。R2D-RL的开源代码已公开，便于研究者复现和扩展实验。此外，该环境还支持动作掩码，允许限制某些动作，提高训练效率。该研究发表在arXiv上，代码已开源，为MARL社区提供了一个新的标准化基准。