2026-06-18站内改写1 分で読了更新: 2026-06-18

R2D-RL: マルチエージェント強化学習のためのRoboCup 2Dサッカー環境

R2D-RLは、RoboCup 2Dサッカーシミュレーション(RCSS2D)とPythonベースのMARLを共有メモリとサイクルレベル同期で接続し、フルフィールド/シナリオトレーニング、設定可能な対戦相手、ハイブリッドアクション空間、EPV報酬形成、並列実行をサポートします。

ソースarXiv AI著者: Haobin Qin, Baofeng Zhang, Hidehisa Akiyama, Keisuke Fujii

マルチエージェント強化学習（MARL）は、ロボットサッカーなどの複雑なタスクにおいて、部分観測可能性、協調と敵対的相互作用、疎な報酬、長期的な戦術行動などの課題に直面します。RoboCup 2Dサッカーシミュレーション（RCSS2D）は成熟したプラットフォームですが、競技指向のサーバー・クライアントアーキテクチャは最新のPythonベースのMARLワークフローと直接互換性がありません。本研究では、RCSS2DとHELIOSベースのプレイヤークライアントを共有メモリ通信とサイクルレベル同期を介してPython MARLインターフェースに接続する強化学習環境、R2D-RLを紹介します。

R2D-RLは、フルフィールドおよびシナリオベースのトレーニング、設定可能な対戦相手、基本離散およびハイブリッドパラメータ化行動空間、行動マスク、期待ポゼッション価値（EPV）ベースの報酬形成、並列実行をサポートします。フロントゴールシナリオと11対11のフルフィールドベンチマーク、およびベースライン結果が提供されています。

EPV報酬形成により、エージェントはより現実的なサッカーのポゼッション戦略を学習できます。ハイブリッド行動空間は、離散行動（例：パス）と連続パラメータ（例：力）の同時使用を可能にします。並列実行によりトレーニングが高速化されます。R2D-RLのコードは公開されており、研究者は容易に実験を再現・拡張できます。さらに、行動マスクを使用することで特定の行動を制限でき、トレーニング効率が向上します。この研究はarXivで発表され、MARLコミュニティに新しい標準化されたベンチマークを提供します。