2026-06-16站内改写2 分钟阅读更新: 2026-06-16

认识Qwen-RobotSuite：三种用于VLA操作、视频世界建模和导航的具身AI模型

Qwen团队发布了三种具身AI模型，统称为Qwen-RobotSuite。包括操作模型RobotManip（基于Qwen3.5-4B）、视频世界模型RobotWorld（60层MMDiT）和导航模型RobotNav（基于Qwen3-VL，提供2B/4B/8B版本）。本文详细介绍了每个模型的架构、数据管道和基准测试结果。

来源MarkTechPost作者: Asif Razzaq

Qwen团队发布了三种具身AI模型，统称为Qwen-RobotSuite。这三个模型分别针对机器人操作、世界建模和导航任务，均基于Qwen视觉语言骨干网络构建。

Qwen-RobotManip是一个视觉-语言-动作（VLA）模型，基于Qwen3.5-4B，用于机器人操作。它通过统一对齐框架解决了操作数据的异构性问题。该框架包括三个机制：规范化状态-动作表示（80维向量，带有二进制掩码）、相机帧Delta姿态参数化（使视觉上相似的运动在数值上更接近）和上下文策略自适应（利用执行历史隐式标识实施例）。此外，双流协同训练策略同时优化操作数据和视觉语言流，防止骨干网络的感知和推理能力退化。

RobotManip的数据引擎收集了约38,100小时的操作数据，全部来自开源数据集和人类视频，没有使用专有数据。其中，人类到机器人合成管道贡献了约24,808小时，该管道将第一人称手部演示转换为机器人轨迹，并在15个机器人平台上渲染。数据经过五阶段筛选管道过滤，确保质量。

在基准测试中，RobotManip专注于分布外（OOD）设置，在LIBERO-Plus上达到91.4%（之前最佳为84.4%），在RoboTwin-C2R Hard上达到69.4%（之前最佳为47.9%），在EBench上达到45.6%（之前最佳为27.1%）。在跨实施例迁移方面，RobotManip达到23.9%，是之前最佳（7.5%）的3.2倍。该模型还在RoboChallenge Table30-v1通用ist轨道上排名第一，相对提升20%。

Qwen-RobotWorld是一个语言条件视频世界模型，具有60层双流多模态扩散变换器（MMDiT）。理解流处理冻结的Qwen2.5-VL编码器特征，生成流处理视频VAE潜在变量。模型有200亿参数，支持最多48,360个视频令牌。语言作为统一动作接口，与实施例无关。

训练使用了约860万视频-文本对的具身世界知识（EWK）数据集，涵盖超过2亿观察帧。动作-语言映射框架将20多种实施例和500多个动作类别标准化为语言。

RobotWorld在四个基准测试中排名第一或领先：EWMBench（总体第一），DreamGen Bench（总体第一），WorldModelBench（开源第一，总体第三），PBench（开源第一）。在EWMBench上，运动保真度HSD为0.566，比第二名提高33%，场景一致性达到0.914。

Qwen-RobotNav是一个基于Qwen3-VL的可扩展导航模型，提供2B、4B和8B参数版本。它将多任务导航重新定义为观察上下文建模，并通过参数化接口实现外部控制。该接口包括任务模式（VLN、PointNav、ObjNav、跟踪）和观察参数（视觉令牌预算、时间衰减、相机重要性权重）。

RobotNav将导航预测为8个航点的轨迹，每个航点包括2D位置和方向。训练使用了1560万个样本，其中85%为导航轨迹数据，15%为视觉语言推理数据。

在基准测试中，RobotNav在VLN-CE RxR上成功率为76.5%，在R2R上为72.1%，在EVT-Bench上跟踪率为90.0%，在HM3Dv2 ObjectNav上成功率为75.6%，在NAVSIM上PDMS为91.4。智能体系统在具身问答（EQA）上实现了新的SOTA，在HM-EQA上提高10.8%，在EXPRESS-Bench上提高15.4%，同时导航步骤减少77%。

每个模型都有具体的部署场景：RobotManip用于在新硬件上进行少量演示的部署和跨实施例技能迁移；RobotWorld可作为合成数据引擎和政策评估环境；RobotNav可作为智能体系统的构建块，用于自主驾驶等任务。

总之，Qwen-RobotSuite通过统一的视觉语言骨干和针对性的架构创新，在具身AI的多个关键领域取得了重要进展。