NVIDIA发布Cosmos 3:双塔混合变换器基础模型,统一物理推理、世界生成与动作生成
NVIDIA推出了Cosmos 3系列开放全模态世界模型,通过双塔混合变换器架构统一物理推理、世界生成和动作生成。该模型家族包括Edge、Nano和Super三种规模,为机器人、自动驾驶和仓库监控等物理AI应用提供统一解决方案。NVIDIA开源了模型权重、训练脚本、部署工具和数据集,采用OpenMDW-1.1许可证。在多项基准测试中,Cosmos 3在推理和生成任务上均取得领先成绩。
NVIDIA AI团队近日发布了Cosmos 3,这是一系列面向物理AI的全模态世界模型。Cosmos 3的创新之处在于将物理推理、世界生成和动作生成三大能力整合到一个统一的开源模型中。该模型的发布面向机器人、自动驾驶汽车和仓库监控等领域的开发团队。
物理AI系统需要在行动之前理解世界。机器人和车辆需要感知、预测,然后采取行动。早期的Cosmos版本将这些任务分散到不同的模型中。而Cosmos 3通过混合变换器(Mixture-of-Transformers, MoT)架构实现了统一。该架构基于两个核心模块:推理器(Reasoner Tower)和生成器(Generator Tower)。
推理器是一个视觉语言模型(VLM),采用自回归架构处理图像、视频和文本,能够理解运动、物体交互等物理上下文。NVIDIA团队将其描述为模型的“大脑”。生成器则基于扩散过程,生成符合物理规律的视频和动作序列,其输出以推理器的理解为条件。信息从推理器单向流向生成器,推理器可独立运行,而生成器需要两个模块协同工作。
Cosmos 3家族包含三种规模:Cosmos3-Nano(16B参数,基础变换器为8B)、Cosmos3-Super(64B参数,基础变换器为32B),以及计划中的Cosmos3-Edge(4B参数)。Nano针对工作站GPU(如NVIDIA RTX PRO 6000)优化,适用于实时机器人应用;Super面向数据中心GPU(包括NVIDIA Hopper和Blackwell),适合大规模合成数据生成和高级推理。此外,还发布了Super Text2Image、Super Image2Video和Nano-Policy-DROID等任务特定变体。
在统一设计上,两个模块共享同一个变换器架构和联合注意力算子,采用三维多模态旋转位置编码(mRoPE)将视频、音频和动作标记对齐到同一时间轴。推理模式下,标记通过因果自注意力进行下一标记预测;生成模式下,噪声标记通过全注意力进行去噪。模型将动作作为核心模态,支持文本、图像、视频和JSON动作数组输入,输出包括图像、视频、同步声音、动作状态和文本。生成支持256p、480p和720p分辨率,帧数从5到300帧不等(默认189帧,约7.9秒)。声音生成为48kHz立体声AAC。动作条件涵盖摄像头、车辆、第一人称、单臂、双臂和人形等多种具身形态。
在基准测试方面,Cosmos 3表现优异。推理方面,Super和Nano在各自规模上领先VANTAGE-Bench,并在交通异常推理(TAR)排行榜上位居榜首,TAR是AI City Challenge 2026 Track 3的官方排行榜。生成方面,NVIDIA报告了开源模型的领先结果:在R-Bench上达到开源SOTA,在PAI-Bench、Physics-IQ和RoboLab等公共排行榜上领先,并在Artificial Analysis文本到图像和图像到视频的无音频排行榜上占据领先位置。
NVIDIA还引入了Cosmos人类评估框架HUE,通过将每个生成视频分解为“是/否”事实问题,从语义对齐、物理定律、几何推理和视觉完整性四个维度评估视频质量,覆盖七个物理AI领域。
Cosmos 3以OpenMDW-1.1许可证开源,包含Nano、Super及任务特定变体的模型权重,六个用于机器人、物理、空间推理、人体运动、驾驶和仓库的SDG数据集,以及训练配方(包括SFT和动作后训练)。部署方面,提供NIM微服务(推理器NIM现可用,生成器NIM待发布),支持BF16、FP8和NVFP4量化(NVFP4可带来高达2倍加速),推理器NIM基于vLLM构建,并提供高效视频采样(EVS)以减少推理时冗余视频标记。
尽管功能强大,Cosmos 3仍存在一些局限性,如输出可能出现时间不一致、运动不稳定、物体变形、3D结构不准确以及音视频不同步等问题。在安全关键控制应用中,需要额外的验证、护栏和系统级分析。