AI News HubLIVE
站内改写2 分で読了

ACE-Ego-0:自己中心的な人間とロボットデータを統合するVLA事前学習

ACE-Ego-0は、自己中心的な人間ビデオをロボット形式の擬似動作軌跡に変換し、信頼性を考慮した学習目標を用いることで、人間とロボットのデータを効果的に融合し、VLAモデルの事前学習とファインチューニング性能を向上させる統一フレームワークである。

ソースarXiv Robotics著者: Hao Li, Ganlong Zhao, Yufei Liu, Haotian Hou, Guoquan Ye, Tongyan Fang, Chunxiao Liu, Siyuan Huang, Jianbo Liu, Xiaogang Wang, Hongsheng Li

Vision-Language-Action (VLA) モデルはロボット工学において大きな可能性を示しているが、大規模なロボット軌跡データの収集はコストが高く、労力がかかる。近年の研究では、大規模な自己中心的な人間ビデオが事前学習のための補完的な実世界監督信号を提供することが示されている。しかし、行動空間、身体構造、時間ダイナミクス、監督品質の違いにより、人間とロボットのデータを共同で学習することは依然として課題である。

この問題を解決するために、研究チームはACE-Ego-0を提案した。これは、異種データソースを統合する統一VLA事前学習フレームワークである。このフレームワークの主な革新は三つある。第一に、スケーラブルな自己中心ビデオから動作へのパイプラインを構築し、生の人間ビデオをロボット形式の擬似動作軌跡に変換する。第二に、カメラ空間動作、形態条件付け、時間調整された動作チャンキングに基づく統一動作表現を用いて、人間の擬似動作ラベルをロボットデモンストレーションと比較可能にする。第三に、人間補助損失を用いた信頼性認識学習目標を設計し、監督を信頼できる信号に集中させることで、ノイズの多い擬似動作監督をロバストに活用する。

実験では、ACE-Ego-0を4.53K時間のロボットおよびシミュレーションデータと、1.48K時間の擬似動作ラベル付き自己中心人間データでインスタンス化した。結果は、信頼性認識重み付けの下で大規模な人間監督を組み込むことが、統合共同事前学習と教師ありファインチューニングの両方を一貫して改善することを示している。このフレームワークはRoboCasa GR1 TableTopおよびRoboTwin 2.0で最先端の性能を達成し、実世界の両腕操作タスクへの強力な転移を示した。これらの成果は、大規模な人間ビデオデータを効果的に活用することで、ロボット学習モデルの性能と汎化能力を大幅に向上できることを示しており、将来のロボット学習に新たな方向性を提供する。