2026-06-16站内改写3 分で読了更新: 2026-06-16

Qwen-RobotSuiteのご紹介：VLA操作、ビデオワールドモデリング、ナビゲーションのための3つの具現化AIモデル

Qwenチームは、操作、ワールドモデリング、ナビゲーションを対象とした3つの具現化AIモデルからなるQwen-RobotSuiteをリリースしました。RobotManipはQwen3.5-4BをベースにしたVision-Language-Actionモデルで、統一アライメントフレームワークにより操作データを拡張します。RobotWorldは60層のMMDiTを備えた言語条件付きビデオワールドモデルで、将来のビデオフレームを予測します。RobotNavはQwen3-VLをベースにしたナビゲーションモデルで、複数のタスクモードに対応するパラメータ化されたインターフェースを備えています。このスイートは、いくつかのベンチマークで最先端の結果を達成しています。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア中級

要点

Qwen-RobotSuiteは、RobotManip、RobotWorld、RobotNavの3つの独立したモデルで構成されています。
RobotManipは、統一アライメントフレームワークによって異種操作データを扱い、LIBERO-PlusやRoboTwin-C2R HardなどのOODベンチマークでSOTAを達成しました。
RobotWorldは、言語を普遍的なアクションインターフェースとしてビデオ予測に使用し、EWMBenchとDreamGen Benchで総合1位を獲得しました。
RobotNavは、ナビゲーションタスクのための制御可能なインターフェースを提供し、VLN-CE RxRで76.5%の成功率、EVT-Benchで90%の追跡率を達成しました。

重要な理由

このニュースが重要なのは、Qwen-RobotSuiteは、RobotManip、RobotWorld、RobotNavの3つの独立したモデルで構成されていますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Qwenチームは、3つの具現化AIモデルをQwen-RobotSuiteとしてリリースしました。これらは、ロボット操作、ワールドモデリング、ナビゲーションの各タスクを対象としており、いずれもQwenの視覚言語バックボーンに基づいています。

Qwen-RobotManipは、Qwen3.5-4BをベースとしたVision-Language-Action（VLA）モデルで、ロボット操作を担当します。統一アライメントフレームワークにより、操作データの異種性問題を解決しています。このフレームワークは、正準状態-行動表現（バイナリマスク付き80次元ベクトル）、カメラフレームデルタポーズパラメータ化（視覚的に類似した動きを数値的に近づける）、およびコンテキスト内ポリシー適応（実行履歴を暗黙の embodiment 識別子として使用）の3つのメカニズムで構成されています。さらに、デュアルストリーム共訓練戦略により、操作データと視覚言語ストリームを同時に最適化し、バックボーンの知覚と推論能力の低下を防ぎます。

RobotManipのデータエンジンは、約38,100時間の操作データを収集しました。すべてオープンソースのデータセットと人間のビデオから得たもので、独自データは使用されていません。人間からロボットへの合成パイプラインが大部分を占め、約24,808時間のデモを生成します。このパイプラインは、一人称視点の手のデモをロボットの軌跡に変換し、15のロボットプラットフォームでレンダリングします。データは5段階のキュレーションパイプラインでフィルタリングされ、品質が保証されます。

ベンチマークでは、RobotManipは分布外（OOD）設定に焦点を当て、LIBERO-Plusで91.4%（以前の最良は84.4%）、RoboTwin-C2R Hardで69.4%（同47.9%）、EBenchで45.6%（同27.1%）を達成しました。クロスエンボディメント転送では、RobotManipは23.9%に達し、以前の最良（7.5%）の3.2倍となりました。このモデルはRoboChallenge Table30-v1ジェネラリストトラックで1位を獲得し、相対的に20%の改善を示しました。

Qwen-RobotWorldは、60層のデュアルストリーム多モーダル拡散トランスフォーマー（MMDiT）を備えた言語条件付きビデオワールドモデルです。理解ストリームは凍結されたQwen2.5-VLエンコーダの特徴を処理し、生成ストリームはビデオVAE潜在変数を処理します。モデルは200億のパラメータを持ち、最大48,360のビデオトークンをサポートします。言語は普遍的なアクションインターフェースとして機能し、embodimentに依存しません。

訓練には、約860万のビデオ-テキストペアからなる具現世界知識（EWK）データセットが使用され、2億以上の観測フレームをカバーしています。アクション-言語マッピングフレームワークにより、20以上のembodimentタイプと500以上のアクションカテゴリが言語に標準化されます。

RobotWorldは4つの確立されたベンチマークで評価され、そのうち2つで総合1位を獲得しました：EWMBench（総合1位）、DreamGen Bench（総合1位）、WorldModelBench（オープンソース1位、総合3位）、PBench（オープンソース1位）。EWMBenchでは、モーション・フィデリティのHSDが0.566で、2位より33%向上し、シーン一貫性は0.914に達しました。

Qwen-RobotNavは、Qwen3-VLをベースにしたスケーラブルなナビゲーションモデルで、2B、4B、8Bのパラメータサイズで利用可能です。マルチタスクナビゲーションを観測コンテキストモデリングとして再定義し、パラメータ化されたインターフェースにより外部制御を可能にします。このインターフェースは、タスクモード（VLN、PointNav、ObjNav、追跡）と観測パラメータ（視覚トークン予算、時間減衰、カメラ重要度重み）の2つの設定次元を持ちます。

RobotNavは、8つのウェイポイントからなる軌跡を予測し、各ウェイポイントは2D位置と方位を持ちます。訓練には1560万サンプルが使用され、その85%がナビゲーション軌跡データ、15%が視覚言語推論データです。

ベンチマークでは、RobotNavはVLN-CE RxRで成功率76.5%、R2Rで72.1%、EVT-Benchで追跡率90.0%、HM3Dv2 ObjectNavで成功率75.6%、NAVSIMでPDMS 91.4を達成しました。エージェントシステムは、Embodied Question Answering（EQA）で新たなSOTAを達成し、HM-EQAで10.8%、EXPRESS-Benchで15.4%改善し、ナビゲーションステップを77%削減しました。

各モデルには具体的な展開シナリオがあります：RobotManipは新しいハードウェアへの少数デモ展開やクロスエンボディメントスキル転送に使用できます。RobotWorldは合成データエンジンやポリシー評価環境として機能します。RobotNavはエージェントシステムのビルディングブロックとして、自律運転などのタスクに利用できます。

まとめると、Qwen-RobotSuiteは、統一された視覚言語バックボーンとターゲットを絞ったアーキテクチャ革新により、具現化AIの複数の重要な分野で重要な進歩をもたらしました。