AI News HubLIVE
站内改写1 分钟阅读

R2D-RL:面向多智能体强化学习的RoboCup 2D足球环境

R2D-RL是一个基于RoboCup 2D足球仿真平台的多智能体强化学习环境,通过共享内存和周期级同步连接Python MARL接口,支持全场/场景训练、可配置对手、混合动作空间、EPV奖励塑造和并行执行。

来源arXiv AI作者: Haobin Qin, Baofeng Zhang, Hidehisa Akiyama, Keisuke Fujii

多智能体强化学习(MARL)在机器人足球等复杂任务中面临部分可观测性、合作与对抗交互、稀疏奖励和长期战术规划等挑战。RoboCup 2D足球仿真平台(RCSS2D)是一个成熟的仿真环境,但其面向竞赛的服务器-客户端架构与现代Python MARL工作流兼容性较差。为此,研究者提出了R2D-RL——一个将RCSS2D与HELIOS基础玩家客户端通过共享内存通信和周期级同步连接到Python MARL接口的强化学习环境。

R2D-RL支持全场和基于场景的训练,包括可配置对手、基础离散和混合参数化动作空间、动作掩码、基于预期控球值(EPV)的奖励塑造以及并行执行。环境提供了前端球门场景和11对11全场基准测试,并包含基线结果。这些特性使得R2D-RL成为MARL研究的有力工具,尤其适合需要复杂战术行为的场景。

通过EPV奖励塑造,智能体可以学习更接近真实足球的控球策略。混合动作空间允许同时使用离散动作(如传球)和连续参数(如力量)。并行执行加速了训练过程。R2D-RL的开源代码已公开,便于研究者复现和扩展实验。此外,该环境还支持动作掩码,允许限制某些动作,提高训练效率。该研究发表在arXiv上,代码已开源,为MARL社区提供了一个新的标准化基准。