Physical Atari:ロボット向けリアルタイム強化学習のための堅牢でアクセスしやすいプラットフォーム
研究者らは、Atari CX40+コントローラーを物理的に操作するロボット「Robotroller」と、Arcade Learning Environmentからのゲームフレームと報酬信号を画面に表示するデバイス「Atari Devbox」を開発した。これらの装置と市販のカメラ、デスクトップコンピュータを組み合わせたシステム「Physical Atari」は、現実世界での強化学習アルゴリズムの研究を可能にする。システムは堅牢性(すべての動作をベアリングで行い、サーボ状態を高頻度で監視するソフトウェア)とアクセス性(安価な市販部品と3Dプリンターで製造可能な部品を使用)を重視して設計されており、総コストは1,000ドル未満で、数週間の連続実験に耐えうる。実験では、強化学習アルゴリズムがロボット上で直接学習できることを確認し、学習時と展開時のわずかな分布のずれがポリシーのパフォーマンスを著しく低下させることを示した。この結果は、ロボット上での強力なパフォーマンスにはデバイス上での適応が重要であることを強調している。
Physical Atariは、ロボットによるリアルタイム強化学習の研究を堅牢かつアクセスしやすい形で実現するために開発された革新的なプラットフォームです。このプラットフォームは2つの主要コンポーネントから構成されています。Robotrollerと呼ばれるロボットは、Atari CX40+コントローラーを物理的に操作し、もう一方のAtari Devboxは、Arcade Learning Environmentからのゲームフレームと報酬信号を画面にレンダリングします。これらの装置に市販のカメラとデスクトップコンピュータを組み合わせることで、物理世界で強化学習アルゴリズムを研究するためのシステムが完成します。
システムの堅牢性を高めるため、Robotrollerはすべての動作にベアリングを採用し、摩耗を大幅に低減しました。さらに、サーボの状態を高周波で監視し、過負荷を防止するソフトウェアが組み込まれています。これらの設計により、システムは数週間にわたる連続運転でも機械的な故障を起こすことなく動作します。
アクセスしやすさの面では、Physical Atariは市販の安価な部品と、一般向け3Dプリンターで製造可能な部品のみを使用しています。システム全体の構築コストは1,000ドル未満であり、研究のハードルを大幅に引き下げています。このプラットフォームはすでに数週間の強化学習実験に使用され、機械的な問題は一切発生していません。
Physical Atariを用いた実験では、強化学習アルゴリズムが実際のロボット上で直接学習できることが確認されました。さらに、学習時と展開時の間にごくわずかな分布のずれが存在するだけで、ポリシーのパフォーマンスが著しく低下することが明らかになりました。この結果は、ロボット上での高いパフォーマンスを達成するためには、デバイス上での適応が不可欠であることを示しています。本論文はRLC 2026で発表される予定です。