2026-06-01 13:41 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Nvidia Cosmos 3：机器人终于要接管世界了吗？

Nvidia发布的Cosmos 3是一个专为物理世界构建的基础模型，旨在帮助开发者训练机器人、自动驾驶系统和视觉AI代理。与传统的生成式视频模型不同，Cosmos 3着重于理解物体、动作和因果关系，支持六种交互模式，可作为机器人直接控制器或数据工厂，大幅降低机器人训练的数据成本。

来源Baseten Blog

Nvidia近日发布了Cosmos 3，这是一款专为物理世界构建的基础模型，旨在推动机器人和自主系统的发展。与市面上大多数旨在生成美观视频的模型不同，Cosmos 3的核心在于理解物理世界的运作规律——它关注的是物体之间的相互作用、动作的因果关系，而不仅仅是像素的排列。该模型被设计为一个统一的“全模态模型”（omni-model），能够同时处理文本、图像、视频、音频和动作，并支持包括文本生成图像、文本生成视频、图像生成视频、前向动力学预测、逆向动力学推理和生成动作策略在内的六种功能模式。

这一模型家族包含两个版本：Cosmos 3 Nano，针对低延迟实时部署进行了优化；以及Cosmos 3 Super，追求最大推理能力和生成质量。对于机器人开发者而言，最引人注目的是后三种模式：前向动力学可以根据当前场景预测接下来会发生什么；逆向动力学则能从观察结果或视频中恢复出动作序列；策略模式可以直接为智能体生成行动指令。

Cosmos 3在机器人领域有两种主要应用路径。第一种是将其作为“驾驶舱”，让机器人将观测数据发送给Cosmos，由模型实时分析并返回应该执行的动作。这种方法适合研究和快速原型验证，但由于依赖远程计算和高延迟，在需要快速响应和离线运行的商业场景中并不理想。第二种路径更为重要：将Cosmos作为“数据工厂”。开发者可以先收集真实世界的视频（例如机器人、汽车或工厂中的录像），利用逆向动力学功能为这些视频自动标注动作标签，再通过文本生成视频或图像生成视频生成大量合成变体，从而创建包含足够多样性的训练数据集。最后，利用这些数据训练一个小型、高效的机器人策略模型，该模型可以直接部署在机器人的本地硬件上，而无需再调用Cosmos本身。这正是Cosmos的价值所在：它并不直接成为机器人，而是帮助制造机器人的“工厂”，大型模型专司数据生产，小型模型负责实际执行。

这一设计理念的核心在于解决机器人领域一个根本性的数据瓶颈。与自然语言处理或计算机视觉等领域拥有海量免费互联网数据不同，机器人演示数据的获取成本极其高昂：目前每小时的演示收集需要昂贵的遥操作设备和专业操作人员，产出仅50-200个演示样本。而通用机器人策略通常需要数百万个涵盖数千种任务的演示。Cosmos通过多种方式打破这一瓶颈：利用逆向动力学将YouTube等无标签视频转化为带标签的训练数据；使用文本生成视频来扩充稀少的演示数据集；用前向动力学作为学习型模拟器，减少构建物理模拟器的工作量；以及利用策略模式作为零样本教师，将知识蒸馏到小型模型中。以打开门这一看似简单但实际极为复杂的任务为例，一个能适应各种类型门（把手、推杆、旋转门等）的机器人，原本需要无数真实演示和昂贵的硬件投资，而Cosmos可以显著降低这些成本。

当然，Cosmos 3并非万能。它在纯创意视频生成、游戏引擎内容、含有文字的图像以及科学模拟方面表现不佳。但就物理AI和机器人领域而言，它提供了一种全新的、高效的开发范式。目前，Cosmos 3 Nano已可在Baseten平台上通过单张H100 GPU运行，文字生成视频大约需要四分钟，动作模式在30秒内即可完成。这一工具的发布，无疑将加速机器人从实验室走向真实世界的进程。