視覚運動制御のための対照的な動作-画像事前学習
ロボット工学における視覚エンコーダは、大規模なペアデータ不足に悩んでいる。新たに提案されたCAIPは、一人称視点の人間ビデオから手の姿勢をロボットのエンドエフェクタ動作の代理として抽出し、対照学習で統一的な動作-画像表現を学習する。わずか88時間のロボットデータと32041時間の人間ビデオを用いて、CAIPは巧みな操作タスクで既存手法を30%以上上回る性能を示した。
ロボット学習における視覚エンコーダの事前学習は、ロボットデータセットの規模不足という根本的なボトルネックに直面している。インターネット規模の画像・言語データや一人称視点の人間ビデオを活用する既存手法はある程度の進歩をもたらしたが、それらは下流の視覚運動制御に必要なペアの視覚-動作データを学習していない。この問題を解決するため、研究チームはCAIP(Contrastive Action-Image Pre-training)を提案した。CAIPは、大規模な一人称ビデオから3D手のキーポイントを抽出し、これをロボットのエンドエフェクタ動作の代理として用いる。対照学習の目的関数により、画像と動作の統一的な表現を学習する。データとしては、わずか88時間のロボット操作データと、Ego4Dなどのデータセットから得た32041時間の一人称人間ビデオを使用した。実世界の巧みな操作タスクにおいて、Dexmate VegaおよびSharpa Waveハンドを用いた評価では、折り畳み、注ぎ、精密操作などでDINOv2、SigLIP、MVP、R3Mなどの最先端の視覚エンコーダを30%以上上回る性能を達成した。この結果は、動作中心の対照事前学習が、物理的インタラクションに適したロバストな視覚表現を実現するためのスケーラブルな道を提供することを示している。本論文はarXivで公開され、コードとデータも提供されている。CAIPの成功は、人間のビデオから動作の代理信号を抽出することで、高価なロボットデータへの依存を大幅に減らせる可能性を示しており、ロボット学習の新たな方向性を切り開くものである。