2026-06-03 16:35 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA发布Cosmos 3：双塔混合变换器基础模型，统一物理推理、世界生成与动作生成

NVIDIA推出了Cosmos 3系列开放全模态世界模型，通过双塔混合变换器架构统一物理推理、世界生成和动作生成。该模型家族包括Edge、Nano和Super三种规模，为机器人、自动驾驶和仓库监控等物理AI应用提供统一解决方案。NVIDIA开源了模型权重、训练脚本、部署工具和数据集，采用OpenMDW-1.1许可证。在多项基准测试中，Cosmos 3在推理和生成任务上均取得领先成绩。

来源MarkTechPost作者: Asif Razzaq

文章情报

工程师进阶

要点

Cosmos 3采用双塔混合变换器架构，将自回归VLM推理器与扩散生成器结合，实现物理推理、世界生成和动作生成的统一。
提供三种模型规模：Cosmos3-Nano（16B）适用于工作站，Cosmos3-Super（64B）适用于数据中心，Cosmos3-Edge（4B）计划后期发布。
在VANTAGE-Bench、TAR、R-Bench等基准上取得开源模型最佳性能，并引入HUE人类评估框架。
开源内容包括模型权重、六个SDG数据集、训练方法、部署工具以及NIM微服务支持。

为什么重要

这条新闻值得关注，因为Cosmos 3采用双塔混合变换器架构，将自回归VLM推理器与扩散生成器结合，实现物理推理、世界生成和动作生成的统一。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

NVIDIA AI团队近日发布了Cosmos 3，这是一系列面向物理AI的全模态世界模型。Cosmos 3的创新之处在于将物理推理、世界生成和动作生成三大能力整合到一个统一的开源模型中。该模型的发布面向机器人、自动驾驶汽车和仓库监控等领域的开发团队。

物理AI系统需要在行动之前理解世界。机器人和车辆需要感知、预测，然后采取行动。早期的Cosmos版本将这些任务分散到不同的模型中。而Cosmos 3通过混合变换器（Mixture-of-Transformers, MoT）架构实现了统一。该架构基于两个核心模块：推理器（Reasoner Tower）和生成器（Generator Tower）。

推理器是一个视觉语言模型（VLM），采用自回归架构处理图像、视频和文本，能够理解运动、物体交互等物理上下文。NVIDIA团队将其描述为模型的“大脑”。生成器则基于扩散过程，生成符合物理规律的视频和动作序列，其输出以推理器的理解为条件。信息从推理器单向流向生成器，推理器可独立运行，而生成器需要两个模块协同工作。

Cosmos 3家族包含三种规模：Cosmos3-Nano（16B参数，基础变换器为8B）、Cosmos3-Super（64B参数，基础变换器为32B），以及计划中的Cosmos3-Edge（4B参数）。Nano针对工作站GPU（如NVIDIA RTX PRO 6000）优化，适用于实时机器人应用；Super面向数据中心GPU（包括NVIDIA Hopper和Blackwell），适合大规模合成数据生成和高级推理。此外，还发布了Super Text2Image、Super Image2Video和Nano-Policy-DROID等任务特定变体。

在统一设计上，两个模块共享同一个变换器架构和联合注意力算子，采用三维多模态旋转位置编码（mRoPE）将视频、音频和动作标记对齐到同一时间轴。推理模式下，标记通过因果自注意力进行下一标记预测；生成模式下，噪声标记通过全注意力进行去噪。模型将动作作为核心模态，支持文本、图像、视频和JSON动作数组输入，输出包括图像、视频、同步声音、动作状态和文本。生成支持256p、480p和720p分辨率，帧数从5到300帧不等（默认189帧，约7.9秒）。声音生成为48kHz立体声AAC。动作条件涵盖摄像头、车辆、第一人称、单臂、双臂和人形等多种具身形态。

在基准测试方面，Cosmos 3表现优异。推理方面，Super和Nano在各自规模上领先VANTAGE-Bench，并在交通异常推理（TAR）排行榜上位居榜首，TAR是AI City Challenge 2026 Track 3的官方排行榜。生成方面，NVIDIA报告了开源模型的领先结果：在R-Bench上达到开源SOTA，在PAI-Bench、Physics-IQ和RoboLab等公共排行榜上领先，并在Artificial Analysis文本到图像和图像到视频的无音频排行榜上占据领先位置。

NVIDIA还引入了Cosmos人类评估框架HUE，通过将每个生成视频分解为“是/否”事实问题，从语义对齐、物理定律、几何推理和视觉完整性四个维度评估视频质量，覆盖七个物理AI领域。

Cosmos 3以OpenMDW-1.1许可证开源，包含Nano、Super及任务特定变体的模型权重，六个用于机器人、物理、空间推理、人体运动、驾驶和仓库的SDG数据集，以及训练配方（包括SFT和动作后训练）。部署方面，提供NIM微服务（推理器NIM现可用，生成器NIM待发布），支持BF16、FP8和NVFP4量化（NVFP4可带来高达2倍加速），推理器NIM基于vLLM构建，并提供高效视频采样（EVS）以减少推理时冗余视频标记。

尽管功能强大，Cosmos 3仍存在一些局限性，如输出可能出现时间不一致、运动不稳定、物体变形、3D结构不准确以及音视频不同步等问题。在安全关键控制应用中，需要额外的验证、护栏和系统级分析。