AI News HubLIVE
站内改写2 分钟阅读

认识Qwen-RobotSuite:三种用于VLA操作、视频世界建模和导航的具身AI模型

Qwen团队发布了三种具身AI模型,统称为Qwen-RobotSuite。包括操作模型RobotManip(基于Qwen3.5-4B)、视频世界模型RobotWorld(60层MMDiT)和导航模型RobotNav(基于Qwen3-VL,提供2B/4B/8B版本)。本文详细介绍了每个模型的架构、数据管道和基准测试结果。

来源MarkTechPost作者: Asif Razzaq

Qwen团队发布了三种具身AI模型,统称为Qwen-RobotSuite。这三个模型分别针对机器人操作、世界建模和导航任务,均基于Qwen视觉语言骨干网络构建。

Qwen-RobotManip是一个视觉-语言-动作(VLA)模型,基于Qwen3.5-4B,用于机器人操作。它通过统一对齐框架解决了操作数据的异构性问题。该框架包括三个机制:规范化状态-动作表示(80维向量,带有二进制掩码)、相机帧Delta姿态参数化(使视觉上相似的运动在数值上更接近)和上下文策略自适应(利用执行历史隐式标识实施例)。此外,双流协同训练策略同时优化操作数据和视觉语言流,防止骨干网络的感知和推理能力退化。

RobotManip的数据引擎收集了约38,100小时的操作数据,全部来自开源数据集和人类视频,没有使用专有数据。其中,人类到机器人合成管道贡献了约24,808小时,该管道将第一人称手部演示转换为机器人轨迹,并在15个机器人平台上渲染。数据经过五阶段筛选管道过滤,确保质量。

在基准测试中,RobotManip专注于分布外(OOD)设置,在LIBERO-Plus上达到91.4%(之前最佳为84.4%),在RoboTwin-C2R Hard上达到69.4%(之前最佳为47.9%),在EBench上达到45.6%(之前最佳为27.1%)。在跨实施例迁移方面,RobotManip达到23.9%,是之前最佳(7.5%)的3.2倍。该模型还在RoboChallenge Table30-v1通用ist轨道上排名第一,相对提升20%。

Qwen-RobotWorld是一个语言条件视频世界模型,具有60层双流多模态扩散变换器(MMDiT)。理解流处理冻结的Qwen2.5-VL编码器特征,生成流处理视频VAE潜在变量。模型有200亿参数,支持最多48,360个视频令牌。语言作为统一动作接口,与实施例无关。

训练使用了约860万视频-文本对的具身世界知识(EWK)数据集,涵盖超过2亿观察帧。动作-语言映射框架将20多种实施例和500多个动作类别标准化为语言。

RobotWorld在四个基准测试中排名第一或领先:EWMBench(总体第一),DreamGen Bench(总体第一),WorldModelBench(开源第一,总体第三),PBench(开源第一)。在EWMBench上,运动保真度HSD为0.566,比第二名提高33%,场景一致性达到0.914。

Qwen-RobotNav是一个基于Qwen3-VL的可扩展导航模型,提供2B、4B和8B参数版本。它将多任务导航重新定义为观察上下文建模,并通过参数化接口实现外部控制。该接口包括任务模式(VLN、PointNav、ObjNav、跟踪)和观察参数(视觉令牌预算、时间衰减、相机重要性权重)。

RobotNav将导航预测为8个航点的轨迹,每个航点包括2D位置和方向。训练使用了1560万个样本,其中85%为导航轨迹数据,15%为视觉语言推理数据。

在基准测试中,RobotNav在VLN-CE RxR上成功率为76.5%,在R2R上为72.1%,在EVT-Bench上跟踪率为90.0%,在HM3Dv2 ObjectNav上成功率为75.6%,在NAVSIM上PDMS为91.4。智能体系统在具身问答(EQA)上实现了新的SOTA,在HM-EQA上提高10.8%,在EXPRESS-Bench上提高15.4%,同时导航步骤减少77%。

每个模型都有具体的部署场景:RobotManip用于在新硬件上进行少量演示的部署和跨实施例技能迁移;RobotWorld可作为合成数据引擎和政策评估环境;RobotNav可作为智能体系统的构建块,用于自主驾驶等任务。

总之,Qwen-RobotSuite通过统一的视觉语言骨干和针对性的架构创新,在具身AI的多个关键领域取得了重要进展。