AI News HubLIVE
站内改写1 分で読了

EgoEngine:自己中心的な人間のビデオから高忠実度の器用なロボットデモンストレーションへ

EgoEngineは、自己中心的な人間の操作ビデオを高忠実度のロボット観察ビデオと実行可能な行動軌跡に変換するスケーラブルなフレームワークです。人間とロボットの間の視覚的および行動的ギャップを埋め、実際のロボットデモンストレーションなしでゼロショットの器用なポリシー学習を実現します。

ソースarXiv Robotics著者: Yangcen Liu, Shuo Cheng, Xinchen Yin, Woo Chul Shin, Alfred Cueva, Yiran Yang, Zhenyang Chen, Chuye Zhang, Danfei Xu

器用な操作はロボット工学の重要な目標ですが、大規模なロボットデモデータの収集にはコストがかかります。自己中心的な人間のビデオは、多様な操作行動のスケーラブルな情報源を提供しますが、ロボット学習に直接利用するには、人間とロボットの観察間の視覚的ギャップと、人間の動作とロボットが実行可能な動作の間の行動的ギャップの2つのギャップを埋める必要があります。

そこで、研究チーム(Yangcen Liu氏を含む8名)は、自己中心的な人間の操作ビデオを高忠実度のロボットデータに変換するスケーラブルなフレームワークであるEgoEngineを提案しました。与えられた自己中心的なRGBビデオから、EgoEngineは以下のものを生成します:(i) 人間をロボットに置き換え、シーンのコンテキストと時間的アライメントを維持した高忠実度のロボット観察ビデオ、(ii) 実行可能性の制約下でタスクに整合した実行可能なロボット行動軌跡。これにより、人間のデモデータをロボット学習用に変換できます。

シミュレーションと実ロボットでの実験により、EgoEngineが人間のビデオをロボットデータにスケーラブルに変換できることが示されました。知る限り、これは実際のロボットデモンストレーションなしで自己中心的な人間のビデオからゼロショットの視覚運動器用ポリシー学習を実証した初めての研究です。この成果は、ロボット学習におけるデータ収集のコストと障壁を大幅に低減する可能性があります。プロジェクトウェブサイト(https://egoengine.github.io)では、さらに詳細な情報やデモビデオが提供されています。本論文は2026年6月10日にarXivに提出され、IDは2606.12604です。