AI News HubLIVE
站内改写2 分钟阅读

Cosmos 3 如何帮助物理AI在行动前思考

NVIDIA 发布了 Cosmos 3,这是一个开放的世界基础模型,结合了视觉推理、多模态生成和动作预测,使机器人、自动驾驶汽车和视觉AI代理能够理解并预测现实世界中的变化。该模型采用混合变换器架构,能够生成合成视频、机器人动作数据等,并支持从智能城市到工业自动化等多种应用。Cosmos 3 在多项基准测试中排名第一,并已开放获取。

来源NVIDIA Blog作者: Ming-Yu Liu

NVIDIA 在 2026 年 5 月 31 日于台北国际电脑展(COMPUTEX)的 GTC Taipei 大会上,正式发布了 Cosmos 3——一款面向物理 AI 的开放世界基础模型。该模型将视觉推理、多模态生成(涵盖文本、视频、图像、环境声音和动作)以及动作预测融合于一体,旨在帮助机器人、自动驾驶汽车(AV)和视觉 AI 代理在行动前更好地理解环境并预测后续状态。

现实世界瞬息万变,物理 AI 系统需要理解场景中的因果关系和未来可能性。例如,仓库中的机器人可能遇到未见过的物体布局,道路上的 AV 需要应对从停车间隔中突然走出的行人,工厂中的安全系统则要预测叉车的移动方向。然而,在现实中捕捉并复现这些场景既昂贵又难以规模化。Cosmos 3 正是为此而生。

Cosmos 3 采用混合变换器(mixture-of-transformers)架构,首先通过推理块解析场景中的元素及其关联,随后利用生成块根据这些上下文生成物理上可信的输出,从合成视频到机器人任务数据均可实现。作为通用基础模型,Cosmos 3 经过多样化数据训练,具备对场景、运动和机器人动作关系的广泛理解。其原生动作生成能力可输出关节角度、夹爪位置和轨迹点等数值化动作数据,指导机器人完成拾取和放置等任务。开发者还可对模型进行微调,以适应特定机器人形态、摄像头布局或工作空间。

NVIDIA GEAR 团队正利用 Cosmos 3 开发视频动作模型,帮助具身智能体在游戏、仿真和真实机器人环境中学习推理与行动。Agile Robots 则使用 Cosmos 3 为其人形机器人 Thor 3 和 FR3 等实体生成动作条件化数据,以规模化创建多样化任务轨迹。在实际测试中,经过后训练的 Cosmos 3 Nano 模型在 RoboLab 平台的语言引导任务中表现领先,并在 RoboArena 的真实环境 DROID 机器人策略对比中取得佳绩。

除了机器人领域,Cosmos 3 还能对智能城市和运动空间进行推理。它能识别场景中移动的物体,预测路径交叉和未来状态,并生成密集描述、场景变化或变体,帮助视觉 AI 代理在工业和基础设施环境中实现理解、预测与预警的闭环。例如,Linker Vision 利用 Cosmos 3 的视觉语言推理能力分析实时摄像头流,理解空间上下文,并从数千个视频流中提取洞察并进行根因分析,从而优化城市运营。Cosmos 3 在智能基础设施场景理解基准 VANTAGE-Bench 和交通异常推理挑战 TAR 中均排名第一。

对于碰撞等长尾边缘案例,Cosmos 3 可作为视频基础模型生成物理上合理的视频序列,帮助人形机器人、机械臂甚至手术机器人安全、可重复地学习罕见场景。这些生成数据可支持合成数据训练和未来状态预测,与真实驾驶数据互补。Cosmos 3 的多个变体在 Artificial Analysis 的公开权重排行榜上位居榜首,并在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试中同样名列前茅。

开发者可通过 build.nvidia.com 体验 Cosmos 3,从 Hugging Face 下载开放模型,利用 GitHub 资源定制并生成合成数据,或部署 NVIDIA NIM 微服务。Cosmos 3 采用 Linux 基金会的 OpenMDW 1.1 许可证,允许开发者在统一的模型中心许可下,自由训练、修改、贡献、分发并部署模型材料(包括权重、架构、文档、数据集、基准和代码)。