2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

R2D-RL：面向多智能體強化學習的RoboCup 2D足球環境

R2D-RL是一個基於RoboCup 2D足球仿真平台的多智能體強化學習環境，通過共享內存和週期級同步連接Python MARL接口，支持全場/場景訓練、可配置對手、混合動作空間、EPV獎勵塑造和並行執行。

來源arXiv AI作者: Haobin Qin, Baofeng Zhang, Hidehisa Akiyama, Keisuke Fujii

多智能體強化學習（MARL）在機器人足球等複雜任務中面臨部分可觀測性、合作與對抗交互、稀疏獎勵和長期戰術規劃等挑戰。RoboCup 2D足球仿真平台（RCSS2D）是一個成熟的仿真環境，但其面向競賽的服務器-客户端架構與現代Python MARL工作流兼容性較差。為此，研究者提出了R2D-RL——一個將RCSS2D與HELIOS基礎玩家客户端通過共享內存通信和週期級同步連接到Python MARL接口的強化學習環境。

R2D-RL支持全場和基於場景的訓練，包括可配置對手、基礎離散和混合參數化動作空間、動作掩碼、基於預期控球值（EPV）的獎勵塑造以及並行執行。環境提供了前端球門場景和11對11全場基準測試，幷包含基線結果。這些特性使得R2D-RL成為MARL研究的有力工具，尤其適合需要複雜戰術行為的場景。

通過EPV獎勵塑造，智能體可以學習更接近真實足球的控球策略。混合動作空間允許同時使用離散動作（如傳球）和連續參數（如力量）。並行執行加速了訓練過程。R2D-RL的開源代碼已公開，便於研究者復現和擴展實驗。此外，該環境還支持動作掩碼，允許限制某些動作，提高訓練效率。該研究發表在arXiv上，代碼已開源，為MARL社區提供了一個新的標準化基準。