認識Qwen-RobotSuite:三種用於VLA操作、視頻世界建模和導航的具身AI模型
Qwen團隊發佈了三種具身AI模型,統稱為Qwen-RobotSuite。包括操作模型RobotManip(基於Qwen3.5-4B)、視頻世界模型RobotWorld(60層MMDiT)和導航模型RobotNav(基於Qwen3-VL,提供2B/4B/8B版本)。本文詳細介紹了每個模型的架構、數據管道和基準測試結果。
Qwen團隊發佈了三種具身AI模型,統稱為Qwen-RobotSuite。這三個模型分別針對機器人操作、世界建模和導航任務,均基於Qwen視覺語言骨幹網絡構建。
Qwen-RobotManip是一個視覺-語言-動作(VLA)模型,基於Qwen3.5-4B,用於機器人操作。它通過統一對齊框架解決了操作數據的異構性問題。該框架包括三個機制:規範化狀態-動作表示(80維向量,帶有二進制掩碼)、相機幀Delta姿態參數化(使視覺上相似的運動在數值上更接近)和上下文策略自適應(利用執行歷史隱式標識實施例)。此外,雙流協同訓練策略同時優化操作數據和視覺語言流,防止骨幹網絡的感知和推理能力退化。
RobotManip的數據引擎收集了約38,100小時的操作數據,全部來自開源數據集和人類視頻,沒有使用專有數據。其中,人類到機器人合成管道貢獻了約24,808小時,該管道將第一人稱手部演示轉換為機器人軌跡,並在15個機器人平台上渲染。數據經過五階段篩選管道過濾,確保質量。
在基準測試中,RobotManip專注於分佈外(OOD)設置,在LIBERO-Plus上達到91.4%(之前最佳為84.4%),在RoboTwin-C2R Hard上達到69.4%(之前最佳為47.9%),在EBench上達到45.6%(之前最佳為27.1%)。在跨實施例遷移方面,RobotManip達到23.9%,是之前最佳(7.5%)的3.2倍。該模型還在RoboChallenge Table30-v1通用ist軌道上排名第一,相對提升20%。
Qwen-RobotWorld是一個語言條件視頻世界模型,具有60層雙流多模態擴散變換器(MMDiT)。理解流處理凍結的Qwen2.5-VL編碼器特徵,生成流處理視頻VAE潛在變量。模型有200億參數,支持最多48,360個視頻令牌。語言作為統一動作接口,與實施例無關。
訓練使用了約860萬視頻-文本對的具身世界知識(EWK)數據集,涵蓋超過2億觀察幀。動作-語言映射框架將20多種實施例和500多個動作類別標準化為語言。
RobotWorld在四個基準測試中排名第一或領先:EWMBench(總體第一),DreamGen Bench(總體第一),WorldModelBench(開源第一,總體第三),PBench(開源第一)。在EWMBench上,運動保真度HSD為0.566,比第二名提高33%,場景一致性達到0.914。
Qwen-RobotNav是一個基於Qwen3-VL的可擴展導航模型,提供2B、4B和8B參數版本。它將多任務導航重新定義為觀察上下文建模,並通過參數化接口實現外部控制。該接口包括任務模式(VLN、PointNav、ObjNav、跟蹤)和觀察參數(視覺令牌預算、時間衰減、相機重要性權重)。
RobotNav將導航預測為8個航點的軌跡,每個航點包括2D位置和方向。訓練使用了1560萬個樣本,其中85%為導航軌跡數據,15%為視覺語言推理數據。
在基準測試中,RobotNav在VLN-CE RxR上成功率為76.5%,在R2R上為72.1%,在EVT-Bench上跟蹤率為90.0%,在HM3Dv2 ObjectNav上成功率為75.6%,在NAVSIM上PDMS為91.4。智能體系統在具身問答(EQA)上實現了新的SOTA,在HM-EQA上提高10.8%,在EXPRESS-Bench上提高15.4%,同時導航步驟減少77%。
每個模型都有具體的部署場景:RobotManip用於在新硬件上進行少量演示的部署和跨實施例技能遷移;RobotWorld可作為合成數據引擎和政策評估環境;RobotNav可作為智能體系統的構建塊,用於自主駕駛等任務。
總之,Qwen-RobotSuite通過統一的視覺語言骨幹和針對性的架構創新,在具身AI的多個關鍵領域取得了重要進展。