R2D-RL:面向多智慧體強化學習的RoboCup 2D足球環境
R2D-RL是一個基於RoboCup 2D足球模擬平臺的多智慧體強化學習環境,透過共享記憶體和週期級同步連線Python MARL介面,支援全場/場景訓練、可配置對手、混合動作空間、EPV獎勵塑造和並行執行。
多智慧體強化學習(MARL)在機器人足球等複雜任務中面臨部分可觀測性、合作與對抗互動、稀疏獎勵和長期戰術規劃等挑戰。RoboCup 2D足球模擬平臺(RCSS2D)是一個成熟的模擬環境,但其面向競賽的伺服器-客戶端架構與現代Python MARL工作流相容性較差。為此,研究者提出了R2D-RL——一個將RCSS2D與HELIOS基礎玩家客戶端透過共享記憶體通訊和週期級同步連線到Python MARL介面的強化學習環境。
R2D-RL支援全場和基於場景的訓練,包括可配置對手、基礎離散和混合引數化動作空間、動作掩碼、基於預期控球值(EPV)的獎勵塑造以及並行執行。環境提供了前端球門場景和11對11全場基準測試,幷包含基線結果。這些特性使得R2D-RL成為MARL研究的有力工具,尤其適合需要複雜戰術行為的場景。
透過EPV獎勵塑造,智慧體可以學習更接近真實足球的控球策略。混合動作空間允許同時使用離散動作(如傳球)和連續引數(如力量)。並行執行加速了訓練過程。R2D-RL的開原始碼已公開,便於研究者復現和擴充套件實驗。此外,該環境還支援動作掩碼,允許限制某些動作,提高訓練效率。該研究發表在arXiv上,程式碼已開源,為MARL社群提供了一個新的標準化基準。