EgoAERO: 単一の一人称ビデオから物体アセットなしで巧みな操作を学習
EgoAEROは、事前にスキャンした物体アセットを必要とせず、単一の一人称RGB-D人間デモから巧みなロボット操作を学習する新しいフレームワークです。接触一貫性のある手-物体軌跡を再構築し、2段階の残差学習を用いてロボットポリシーに変換します。また、オンライン品質評価メカニズムを導入し、430万RGB-Dフレームからなる大規模データセットEgoDex-Rを構築しました。実験では、CADベースの手法に近い性能を達成しています。
EgoAEROは、Yichen Niuら15名の研究者によって提案された革新的なフレームワークであり、2026年6月6日にarXivに提出されました。その目標は、事前にスキャンした物体の3Dモデルを必要とせず、単一の一人称RGB-Dビデオから巧みなロボット操作を学習することです。従来のロボット学習手法では、高価な物体スキャンアセットに依存することが多く、実環境での柔軟性や拡張性が制限されていました。EgoAEROは、一連のプロセスを通じて単一のデモから手と物体のインタラクション軌跡を再構築し、ロボットが実行可能なポリシーに変換します。
このフレームワークの中核技術には、アセットフリー物体追跡・再構築、エゴモーション補償、適応接触最適化が含まれます。まず、ビデオから物体の姿勢と形状をリアルタイムで復元し、事前モデルを不要とします。次に、エゴモーション補償によりカメラの動きによるノイズを除去し、軌跡の時間的一貫性を確保します。最後に、適応接触最適化アルゴリズムが生成された手-物体軌跡が物理的接触制約を満たすことを保証し、貫通や分離を防ぎます。これらの軌跡は、2段階の残差学習によりロボットポリシーに変換されます。第1段階では大まかな軌跡分布を学習し、第2段階で微調整を行い、異なるロボットの運動学に適応します。
大規模学習をサポートするため、研究チームはEgoDex-Rデータセットを構築しました。このデータセットは430万フレームのRGB-Dデータで構成され、把持、回転、挿入など多様な巧みな操作タスクをカバーしています。さらに、オンライン品質評価メカニズムを導入し、高品質なデモサンプルを自動的に選別して学習効率を向上させています。
シミュレーションおよび実ロボット実験において、EgoAEROはCADベースの手法に近い性能を示しました。HOI4Dベンチマークでは、下流タスクの成功率がCAD再構築手法とほぼ同等であり、実用化の可能性が実証されました。この研究は、アセットフリーで単一デモからの巧みな操作学習に新たな道を開き、家庭、医療、産業など幅広い分野でのロボット応用を促進することが期待されます。論文番号はarXiv:2606.08057です。