R2D-RL:面向多智能體強化學習的RoboCup 2D足球環境
R2D-RL是一個基於RoboCup 2D足球仿真平台的多智能體強化學習環境,通過共享內存和週期級同步連接Python MARL接口,支持全場/場景訓練、可配置對手、混合動作空間、EPV獎勵塑造和並行執行。
多智能體強化學習(MARL)在機器人足球等複雜任務中面臨部分可觀測性、合作與對抗交互、稀疏獎勵和長期戰術規劃等挑戰。RoboCup 2D足球仿真平台(RCSS2D)是一個成熟的仿真環境,但其面向競賽的服務器-客户端架構與現代Python MARL工作流兼容性較差。為此,研究者提出了R2D-RL——一個將RCSS2D與HELIOS基礎玩家客户端通過共享內存通信和週期級同步連接到Python MARL接口的強化學習環境。
R2D-RL支持全場和基於場景的訓練,包括可配置對手、基礎離散和混合參數化動作空間、動作掩碼、基於預期控球值(EPV)的獎勵塑造以及並行執行。環境提供了前端球門場景和11對11全場基準測試,幷包含基線結果。這些特性使得R2D-RL成為MARL研究的有力工具,尤其適合需要複雜戰術行為的場景。
通過EPV獎勵塑造,智能體可以學習更接近真實足球的控球策略。混合動作空間允許同時使用離散動作(如傳球)和連續參數(如力量)。並行執行加速了訓練過程。R2D-RL的開源代碼已公開,便於研究者復現和擴展實驗。此外,該環境還支持動作掩碼,允許限制某些動作,提高訓練效率。該研究發表在arXiv上,代碼已開源,為MARL社區提供了一個新的標準化基準。