欢迎使用NVIDIA Cosmos 3:首个用于物理AI推理与行动的开源全模态模型
NVIDIA发布了Cosmos 3,这是一个统一的世界基础模型,结合了世界生成、物理推理和行动生成。该模型基于混合Transformer架构,支持多种输入和输出模态,包括文本、图像、视频和动作。提供两个版本:Cosmos 3 Nano(8B参数)和Cosmos 3 Super(32B参数),并已集成到Hugging Face Diffusers库中。同时发布了多个用于物理AI的合成数据生成数据集。
NVIDIA 今日正式发布 Cosmos 3,这是首个面向物理 AI 的开源全模态模型。该模型将世界生成、物理推理和行动生成统一在一个框架中,基于创新的混合 Transformer(MoT)架构。与以往需要分别使用多个独立模型(如 Cosmos Predict 用于世界生成、Cosmos Transfer 用于可控生成、Cosmos Reason 用于场景理解、Cosmos Policy 用于策略生成)不同,Cosmos 3 通过单一模型即可完成所有任务。其架构将输入序列分为自回归(AR)和扩散(DM)两个子序列:AR 子序列负责推理和理解,通过下一个 token 预测工作;DM 子序列负责生成,通过迭代去噪实现。两个子序列在每一层 Transformer 中共享参数集但通过联合注意力机制交互,这使得模型可以无缝扮演视觉语言模型、视频生成器、前向/逆向动力学模型或机器人策略的角色。
Cosmos 3 提供两种尺寸:Nano 版本(8B 参数)针对工作站级 GPU(如 RTX PRO 6000)进行了优化,适合高效推理;Super 版本(32B 参数)专为大规模合成数据生成和研究设计,运行在 NVIDIA Hopper 和 Blackwell GPU 上。两个模型均已通过 Hugging Face 发布,并集成到 Diffusers 库中。开发者可以使用 Cosmos3OmniPipeline 轻松实现文本到图像、文本到视频、图像到视频等管线。例如,以下 Python 代码展示了如何使用 Nano 版本从文本生成图像:
import torch
from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = "一个现代机器人研究实验室的中景,白色墙壁和灰色地板。一个金属质感的机械臂安装在干净的白色工作台上,其夹爪位于一排彩色小物体上方。机器人旁边放着一台笔记本电脑和整齐排列的工具。背后墙上的大显示器显示着软件界面。场景由头顶荧光灯明亮照明。"
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)除了核心模型,NVIDIA 还发布了多个合成数据生成(SDG)数据集,涵盖机器人操作场景、物理交互、空间推理、数字人运动、自动驾驶场景和仓库安全等。这些数据集由 NVIDIA 多个团队生成,可在 Hugging Face 上获取。Cosmos 3 还提供了后训练脚本和智能体技能,帮助开发者在特定任务上微调模型,以及快速搭建开发环境。
Cosmos 3 的发布奠定了物理 AI 领域的重要里程碑,它简化了从感知到行动的整个流程,为机器人、自动驾驶和智能空间等应用提供了统一的解决方案。开发者可以访问 NVIDIA 的 GitHub 仓库、技术博客和 NIM 微服务以获取更多信息。