2026-05-25 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

GEM-4D：ロボット操作のための幾何学的強化ビデオワールドモデル

GEM-4Dは、高密度な4D対応関係の監視を注入することでロボット操作を向上させる幾何学的に基づいたビデオワールドモデルです。事前学習済みの幾何学基盤モデルから蒸留されたこの監視により、追加の推論コストなしで外観と幾何学的構造を同時に捉えます。逆動力学モジュールにより、一貫性のあるビデオ展開を実行可能なロボット軌道に変換します。GEM-4Dはビデオ予測と幾何学的整合性で最先端の性能を達成し、実世界の操作成功率を61%から81%に向上させます。

ソースarXiv Computer Vision著者: Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang

近年、ビデオワールドモデルはロボット操作の分野で大きな可能性を示しており、単一の指示から現実的な将来のシーンを生成できます。しかし、これらのモデルは時間経過に伴う一貫した点レベルの動きを維持できないことが多く、生成されたビデオは視覚的には妥当に見えるものの、信頼性のある動作実行（ロボット操作など）に必要な物理的な基盤を欠いています。この問題を解決するため、研究チームはGEM-4D（Geometry-Enhanced Video World Models）を提案しました。これは、高密度な4D対応関係の監視を注入することで、幾何学的整合性と操作の実現可能性を大幅に向上させたビデオワールドモデルです。

GEM-4Dの核心的な革新はその学習戦略にあります。事前学習済みの幾何学基盤モデルから知識を抽出し、高密度な4D対応監視信号をビデオ生成バックボーンに注入します。これにより、モデルは外観と幾何学的構造を同時に学習できるようになり、単一ストリームアーキテクチャを変更する必要がなく、推論時の計算負荷も増加しません。つまり、GEM-4Dは効率的な生成を維持しながら、ビデオ内の物体運動の物理的な妥当性を確保します。

生成されたビデオを直接ロボット操作に適用するために、研究チームはさらに逆動力学モジュールを開発しました。このモジュールは、一貫性のある対応関係を持つビデオ展開（video rollouts）を実行可能なロボット軌道に変換し、実世界およびシミュレーション環境での直接展開を可能にします。これにより、GEM-4Dは将来のシーンを予測するだけでなく、ロボットに具体的な動作指示を提供することができます。

性能評価において、GEM-4Dはビデオ予測と幾何学的整合性の両方で最先端の性能を達成し、シミュレーションと現実の両方のシナリオで優れた結果を示しました。特に注目すべき点は、実世界のロボット操作タスクにおいて成功率が61%から81%に向上したことです（20ポイントの大幅な改善）。この成果は、幾何学的に強化されたビデオワールドモデルが視覚予測と物理実行の間のギャップを効果的に埋めることができることを示しています。

GEM-4Dの関連コードと詳細な実験結果はプロジェクトページ（https://anonymous-submission-20.github.io/gem.github.io/）で公開されています。本研究はKaichen Zhou氏を含む11名の著者によって行われ、論文はarXiv（ID: 2605.22882）に掲載されており、コンピュータビジョンとパターン認識（cs.CV）およびロボティクス（cs.RO）を対象としています。