2026-06-01 12:45 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Cosmos 3 如何帮助物理AI在行动前思考

NVIDIA 发布了 Cosmos 3，这是一个开放的世界基础模型，结合了视觉推理、多模态生成和动作预测，使机器人、自动驾驶汽车和视觉AI代理能够理解并预测现实世界中的变化。该模型采用混合变换器架构，能够生成合成视频、机器人动作数据等，并支持从智能城市到工业自动化等多种应用。Cosmos 3 在多项基准测试中排名第一，并已开放获取。

来源NVIDIA Blog作者: Ming-Yu Liu

NVIDIA 在 2026 年 5 月 31 日于台北国际电脑展（COMPUTEX）的 GTC Taipei 大会上，正式发布了 Cosmos 3——一款面向物理 AI 的开放世界基础模型。该模型将视觉推理、多模态生成（涵盖文本、视频、图像、环境声音和动作）以及动作预测融合于一体，旨在帮助机器人、自动驾驶汽车（AV）和视觉 AI 代理在行动前更好地理解环境并预测后续状态。

现实世界瞬息万变，物理 AI 系统需要理解场景中的因果关系和未来可能性。例如，仓库中的机器人可能遇到未见过的物体布局，道路上的 AV 需要应对从停车间隔中突然走出的行人，工厂中的安全系统则要预测叉车的移动方向。然而，在现实中捕捉并复现这些场景既昂贵又难以规模化。Cosmos 3 正是为此而生。

Cosmos 3 采用混合变换器（mixture-of-transformers）架构，首先通过推理块解析场景中的元素及其关联，随后利用生成块根据这些上下文生成物理上可信的输出，从合成视频到机器人任务数据均可实现。作为通用基础模型，Cosmos 3 经过多样化数据训练，具备对场景、运动和机器人动作关系的广泛理解。其原生动作生成能力可输出关节角度、夹爪位置和轨迹点等数值化动作数据，指导机器人完成拾取和放置等任务。开发者还可对模型进行微调，以适应特定机器人形态、摄像头布局或工作空间。

NVIDIA GEAR 团队正利用 Cosmos 3 开发视频动作模型，帮助具身智能体在游戏、仿真和真实机器人环境中学习推理与行动。Agile Robots 则使用 Cosmos 3 为其人形机器人 Thor 3 和 FR3 等实体生成动作条件化数据，以规模化创建多样化任务轨迹。在实际测试中，经过后训练的 Cosmos 3 Nano 模型在 RoboLab 平台的语言引导任务中表现领先，并在 RoboArena 的真实环境 DROID 机器人策略对比中取得佳绩。

除了机器人领域，Cosmos 3 还能对智能城市和运动空间进行推理。它能识别场景中移动的物体，预测路径交叉和未来状态，并生成密集描述、场景变化或变体，帮助视觉 AI 代理在工业和基础设施环境中实现理解、预测与预警的闭环。例如，Linker Vision 利用 Cosmos 3 的视觉语言推理能力分析实时摄像头流，理解空间上下文，并从数千个视频流中提取洞察并进行根因分析，从而优化城市运营。Cosmos 3 在智能基础设施场景理解基准 VANTAGE-Bench 和交通异常推理挑战 TAR 中均排名第一。

对于碰撞等长尾边缘案例，Cosmos 3 可作为视频基础模型生成物理上合理的视频序列，帮助人形机器人、机械臂甚至手术机器人安全、可重复地学习罕见场景。这些生成数据可支持合成数据训练和未来状态预测，与真实驾驶数据互补。Cosmos 3 的多个变体在 Artificial Analysis 的公开权重排行榜上位居榜首，并在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试中同样名列前茅。

开发者可通过 build.nvidia.com 体验 Cosmos 3，从 Hugging Face 下载开放模型，利用 GitHub 资源定制并生成合成数据，或部署 NVIDIA NIM 微服务。Cosmos 3 采用 Linux 基金会的 OpenMDW 1.1 许可证，允许开发者在统一的模型中心许可下，自由训练、修改、贡献、分发并部署模型材料（包括权重、架构、文档、数据集、基准和代码）。