2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

R2D-RL：面向多智慧體強化學習的RoboCup 2D足球環境

R2D-RL是一個基於RoboCup 2D足球模擬平臺的多智慧體強化學習環境，透過共享記憶體和週期級同步連線Python MARL介面，支援全場/場景訓練、可配置對手、混合動作空間、EPV獎勵塑造和並行執行。

來源arXiv AI作者: Haobin Qin, Baofeng Zhang, Hidehisa Akiyama, Keisuke Fujii

多智慧體強化學習（MARL）在機器人足球等複雜任務中面臨部分可觀測性、合作與對抗互動、稀疏獎勵和長期戰術規劃等挑戰。RoboCup 2D足球模擬平臺（RCSS2D）是一個成熟的模擬環境，但其面向競賽的伺服器-客戶端架構與現代Python MARL工作流相容性較差。為此，研究者提出了R2D-RL——一個將RCSS2D與HELIOS基礎玩家客戶端透過共享記憶體通訊和週期級同步連線到Python MARL介面的強化學習環境。

R2D-RL支援全場和基於場景的訓練，包括可配置對手、基礎離散和混合引數化動作空間、動作掩碼、基於預期控球值（EPV）的獎勵塑造以及並行執行。環境提供了前端球門場景和11對11全場基準測試，幷包含基線結果。這些特性使得R2D-RL成為MARL研究的有力工具，尤其適合需要複雜戰術行為的場景。

透過EPV獎勵塑造，智慧體可以學習更接近真實足球的控球策略。混合動作空間允許同時使用離散動作（如傳球）和連續引數（如力量）。並行執行加速了訓練過程。R2D-RL的開原始碼已公開，便於研究者復現和擴充套件實驗。此外，該環境還支援動作掩碼，允許限制某些動作，提高訓練效率。該研究發表在arXiv上，程式碼已開源，為MARL社群提供了一個新的標準化基準。