2026-06-15站内改写1 分で読了更新: 2026-06-15

μ₀：スケーラブルな3Dインタラクショントレース世界モデル

本論文は、ピクセルやアクションではなく、物体、ツール、手などの相互作用点の3D軌道を予測するスケーラブルな世界モデルμ₀を提案する。TraceExtractシステムが動画から3D教師信号を自動抽出。実験では、μ₀が2D/3Dトレース予測でベースラインを凌駕し、凍結したμ₀をアクションエキスパートと組み合わせることで、アクション教師ありのVLAモデルに匹敵する性能を達成した。

ソースarXiv Robotics著者: Seungjae Lee, Yoonkyo Jung, Jusuk Lee, Jonghun Shin, Amir Hossein Shahidzadeh, Yao-Chih Lee, H. Jin Kim, Jia-Bin Huang, Furong Huang

韓国科学技術院（KAIST）などの研究チームは、スケーラブルな世界モデルμ₀を提案した。従来のロボット学習では、ピクセルレベルの動画予測（外観再構成に計算リソースを消費）や、身体固有のアクションラベル（汎化性を制限）に依存していた。μ₀は、物体、ツール、手などの相互作用点の3D軌道を予測することで、コンパクトかつ身体に依存しない運動インタフェースを実現する。

大量の動画から学習するために、研究チームはTraceExtractシステムを開発した。このシステムは、キーポイントを選択し、全体的に整列したトレースを構築し、運動セグメントに階層的な言語キャプションを関連付けることで、3D教師信号を自動抽出する。μ₀の事前学習では、事前学習済みの視覚言語バックボーンとモジュラーなトレースエキスパートを組み合わせ、各クエリをBスプライン制御点で表現し、将来のトレースを予測する。実験により、μ₀は2Dおよび3Dトレース予測の両方で、既存のトレース予測モデルやトークン化VLM手法を上回る性能を示した。

μ₀の重要な特性は、凍結後の再利用可能性である。学習後、μ₀は微調整なしで下流のアクションエキスパートモデルと組み合わせ、特定のロボットの操作ポリシーに利用できる。事前学習段階ではアクションラベルを一切使用していないにもかかわらず、μ₀のトレース条件付きポリシーは、アクション教師ありで事前学習されたVLAモデル（例：π₀）と競合する性能を達成した。この結果は、3Dトレースがクロスボディ操作のためのスケーラブルで転送可能な表現であることを示している。

本研究は、ロボット学習に新しいパラダイムを提供する。将来、μ₀はより多くのモダリティデータと統合され、複雑な環境に対するロボットの理解をさらに向上させる可能性がある。論文はarXiv（番号2606.13769）に収録されており、関連コードとモデルは順次オープンソース化される予定である。