2026-06-12站内改写1 分で読了更新: 2026-06-12

EgoEngine：自己中心的な人間のビデオから高忠実度の器用なロボットデモンストレーションへ

EgoEngineは、自己中心的な人間の操作ビデオを高忠実度のロボット観察ビデオと実行可能な行動軌跡に変換するスケーラブルなフレームワークです。人間とロボットの間の視覚的および行動的ギャップを埋め、実際のロボットデモンストレーションなしでゼロショットの器用なポリシー学習を実現します。

ソースarXiv Robotics著者: Yangcen Liu, Shuo Cheng, Xinchen Yin, Woo Chul Shin, Alfred Cueva, Yiran Yang, Zhenyang Chen, Chuye Zhang, Danfei Xu

記事インテリジェンス

研究者上級

要点

EgoEngineは人間の自己中心ビデオを高忠実度のロボットデモデータ（観察ビデオと行動軌跡）に変換します。
視覚的ギャップと行動的ギャップの両方に対処します。
実際のロボットデモなしでゼロショットの器用なポリシー学習を可能にします。
シミュレーションと実ロボットで検証されました。

重要な理由

このニュースが重要なのは、EgoEngineは人間の自己中心ビデオを高忠実度のロボットデモデータ（観察ビデオと行動軌跡）に変換しますためです。

技術的影響

コンプライアンス要件、モデル公開時期、データガバナンス、企業調達に影響する可能性があります。

器用な操作はロボット工学の重要な目標ですが、大規模なロボットデモデータの収集にはコストがかかります。自己中心的な人間のビデオは、多様な操作行動のスケーラブルな情報源を提供しますが、ロボット学習に直接利用するには、人間とロボットの観察間の視覚的ギャップと、人間の動作とロボットが実行可能な動作の間の行動的ギャップの2つのギャップを埋める必要があります。

そこで、研究チーム（Yangcen Liu氏を含む8名）は、自己中心的な人間の操作ビデオを高忠実度のロボットデータに変換するスケーラブルなフレームワークであるEgoEngineを提案しました。与えられた自己中心的なRGBビデオから、EgoEngineは以下のものを生成します：(i) 人間をロボットに置き換え、シーンのコンテキストと時間的アライメントを維持した高忠実度のロボット観察ビデオ、(ii) 実行可能性の制約下でタスクに整合した実行可能なロボット行動軌跡。これにより、人間のデモデータをロボット学習用に変換できます。

シミュレーションと実ロボットでの実験により、EgoEngineが人間のビデオをロボットデータにスケーラブルに変換できることが示されました。知る限り、これは実際のロボットデモンストレーションなしで自己中心的な人間のビデオからゼロショットの視覚運動器用ポリシー学習を実証した初めての研究です。この成果は、ロボット学習におけるデータ収集のコストと障壁を大幅に低減する可能性があります。プロジェクトウェブサイト（https://egoengine.github.io）では、さらに詳細な情報やデモビデオが提供されています。本論文は2026年6月10日にarXivに提出され、IDは2606.12604です。