AI News HubLIVE
站内改写1 分で読了

R2D-RL: マルチエージェント強化学習のためのRoboCup 2Dサッカー環境

R2D-RLは、RoboCup 2Dサッカーシミュレーション(RCSS2D)とPythonベースのMARLを共有メモリとサイクルレベル同期で接続し、フルフィールド/シナリオトレーニング、設定可能な対戦相手、ハイブリッドアクション空間、EPV報酬形成、並列実行をサポートします。

ソースarXiv AI著者: Haobin Qin, Baofeng Zhang, Hidehisa Akiyama, Keisuke Fujii

マルチエージェント強化学習(MARL)は、ロボットサッカーなどの複雑なタスクにおいて、部分観測可能性、協調と敵対的相互作用、疎な報酬、長期的な戦術行動などの課題に直面します。RoboCup 2Dサッカーシミュレーション(RCSS2D)は成熟したプラットフォームですが、競技指向のサーバー・クライアントアーキテクチャは最新のPythonベースのMARLワークフローと直接互換性がありません。本研究では、RCSS2DとHELIOSベースのプレイヤークライアントを共有メモリ通信とサイクルレベル同期を介してPython MARLインターフェースに接続する強化学習環境、R2D-RLを紹介します。

R2D-RLは、フルフィールドおよびシナリオベースのトレーニング、設定可能な対戦相手、基本離散およびハイブリッドパラメータ化行動空間、行動マスク、期待ポゼッション価値(EPV)ベースの報酬形成、並列実行をサポートします。フロントゴールシナリオと11対11のフルフィールドベンチマーク、およびベースライン結果が提供されています。

EPV報酬形成により、エージェントはより現実的なサッカーのポゼッション戦略を学習できます。ハイブリッド行動空間は、離散行動(例:パス)と連続パラメータ(例:力)の同時使用を可能にします。並列実行によりトレーニングが高速化されます。R2D-RLのコードは公開されており、研究者は容易に実験を再現・拡張できます。さらに、行動マスクを使用することで特定の行動を制限でき、トレーニング効率が向上します。この研究はarXivで発表され、MARLコミュニティに新しい標準化されたベンチマークを提供します。