2026-06-01 12:44 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

欢迎使用NVIDIA Cosmos 3：首个用于物理AI推理与行动的开源全模态模型

NVIDIA发布了Cosmos 3，这是一个统一的世界基础模型，结合了世界生成、物理推理和行动生成。该模型基于混合Transformer架构，支持多种输入和输出模态，包括文本、图像、视频和动作。提供两个版本：Cosmos 3 Nano（8B参数）和Cosmos 3 Super（32B参数），并已集成到Hugging Face Diffusers库中。同时发布了多个用于物理AI的合成数据生成数据集。

来源Hugging Face Blog

NVIDIA 今日正式发布 Cosmos 3，这是首个面向物理 AI 的开源全模态模型。该模型将世界生成、物理推理和行动生成统一在一个框架中，基于创新的混合 Transformer（MoT）架构。与以往需要分别使用多个独立模型（如 Cosmos Predict 用于世界生成、Cosmos Transfer 用于可控生成、Cosmos Reason 用于场景理解、Cosmos Policy 用于策略生成）不同，Cosmos 3 通过单一模型即可完成所有任务。其架构将输入序列分为自回归（AR）和扩散（DM）两个子序列：AR 子序列负责推理和理解，通过下一个 token 预测工作；DM 子序列负责生成，通过迭代去噪实现。两个子序列在每一层 Transformer 中共享参数集但通过联合注意力机制交互，这使得模型可以无缝扮演视觉语言模型、视频生成器、前向/逆向动力学模型或机器人策略的角色。

Cosmos 3 提供两种尺寸：Nano 版本（8B 参数）针对工作站级 GPU（如 RTX PRO 6000）进行了优化，适合高效推理；Super 版本（32B 参数）专为大规模合成数据生成和研究设计，运行在 NVIDIA Hopper 和 Blackwell GPU 上。两个模型均已通过 Hugging Face 发布，并集成到 Diffusers 库中。开发者可以使用 Cosmos3OmniPipeline 轻松实现文本到图像、文本到视频、图像到视频等管线。例如，以下 Python 代码展示了如何使用 Nano 版本从文本生成图像：

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = "一个现代机器人研究实验室的中景，白色墙壁和灰色地板。一个金属质感的机械臂安装在干净的白色工作台上，其夹爪位于一排彩色小物体上方。机器人旁边放着一台笔记本电脑和整齐排列的工具。背后墙上的大显示器显示着软件界面。场景由头顶荧光灯明亮照明。"
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

除了核心模型，NVIDIA 还发布了多个合成数据生成（SDG）数据集，涵盖机器人操作场景、物理交互、空间推理、数字人运动、自动驾驶场景和仓库安全等。这些数据集由 NVIDIA 多个团队生成，可在 Hugging Face 上获取。Cosmos 3 还提供了后训练脚本和智能体技能，帮助开发者在特定任务上微调模型，以及快速搭建开发环境。

Cosmos 3 的发布奠定了物理 AI 领域的重要里程碑，它简化了从感知到行动的整个流程，为机器人、自动驾驶和智能空间等应用提供了统一的解决方案。开发者可以访问 NVIDIA 的 GitHub 仓库、技术博客和 NIM 微服务以获取更多信息。