2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

認識Qwen-RobotSuite：三種用於VLA操作、視頻世界建模和導航的具身AI模型

Qwen團隊發佈了三種具身AI模型，統稱為Qwen-RobotSuite。包括操作模型RobotManip（基於Qwen3.5-4B）、視頻世界模型RobotWorld（60層MMDiT）和導航模型RobotNav（基於Qwen3-VL，提供2B/4B/8B版本）。本文詳細介紹了每個模型的架構、數據管道和基準測試結果。

來源MarkTechPost作者: Asif Razzaq

Qwen團隊發佈了三種具身AI模型，統稱為Qwen-RobotSuite。這三個模型分別針對機器人操作、世界建模和導航任務，均基於Qwen視覺語言骨幹網絡構建。

Qwen-RobotManip是一個視覺-語言-動作（VLA）模型，基於Qwen3.5-4B，用於機器人操作。它通過統一對齊框架解決了操作數據的異構性問題。該框架包括三個機制：規範化狀態-動作表示（80維向量，帶有二進制掩碼）、相機幀Delta姿態參數化（使視覺上相似的運動在數值上更接近）和上下文策略自適應（利用執行歷史隱式標識實施例）。此外，雙流協同訓練策略同時優化操作數據和視覺語言流，防止骨幹網絡的感知和推理能力退化。

RobotManip的數據引擎收集了約38,100小時的操作數據，全部來自開源數據集和人類視頻，沒有使用專有數據。其中，人類到機器人合成管道貢獻了約24,808小時，該管道將第一人稱手部演示轉換為機器人軌跡，並在15個機器人平台上渲染。數據經過五階段篩選管道過濾，確保質量。

在基準測試中，RobotManip專注於分佈外（OOD）設置，在LIBERO-Plus上達到91.4%（之前最佳為84.4%），在RoboTwin-C2R Hard上達到69.4%（之前最佳為47.9%），在EBench上達到45.6%（之前最佳為27.1%）。在跨實施例遷移方面，RobotManip達到23.9%，是之前最佳（7.5%）的3.2倍。該模型還在RoboChallenge Table30-v1通用ist軌道上排名第一，相對提升20%。

Qwen-RobotWorld是一個語言條件視頻世界模型，具有60層雙流多模態擴散變換器（MMDiT）。理解流處理凍結的Qwen2.5-VL編碼器特徵，生成流處理視頻VAE潛在變量。模型有200億參數，支持最多48,360個視頻令牌。語言作為統一動作接口，與實施例無關。

訓練使用了約860萬視頻-文本對的具身世界知識（EWK）數據集，涵蓋超過2億觀察幀。動作-語言映射框架將20多種實施例和500多個動作類別標準化為語言。

RobotWorld在四個基準測試中排名第一或領先：EWMBench（總體第一），DreamGen Bench（總體第一），WorldModelBench（開源第一，總體第三），PBench（開源第一）。在EWMBench上，運動保真度HSD為0.566，比第二名提高33%，場景一致性達到0.914。

Qwen-RobotNav是一個基於Qwen3-VL的可擴展導航模型，提供2B、4B和8B參數版本。它將多任務導航重新定義為觀察上下文建模，並通過參數化接口實現外部控制。該接口包括任務模式（VLN、PointNav、ObjNav、跟蹤）和觀察參數（視覺令牌預算、時間衰減、相機重要性權重）。

RobotNav將導航預測為8個航點的軌跡，每個航點包括2D位置和方向。訓練使用了1560萬個樣本，其中85%為導航軌跡數據，15%為視覺語言推理數據。

在基準測試中，RobotNav在VLN-CE RxR上成功率為76.5%，在R2R上為72.1%，在EVT-Bench上跟蹤率為90.0%，在HM3Dv2 ObjectNav上成功率為75.6%，在NAVSIM上PDMS為91.4。智能體系統在具身問答（EQA）上實現了新的SOTA，在HM-EQA上提高10.8%，在EXPRESS-Bench上提高15.4%，同時導航步驟減少77%。

每個模型都有具體的部署場景：RobotManip用於在新硬件上進行少量演示的部署和跨實施例技能遷移；RobotWorld可作為合成數據引擎和政策評估環境；RobotNav可作為智能體系統的構建塊，用於自主駕駛等任務。

總之，Qwen-RobotSuite通過統一的視覺語言骨幹和針對性的架構創新，在具身AI的多個關鍵領域取得了重要進展。