AI News HubLIVE
站内改写2 分钟阅读

Nvidia Cosmos 3:机器人终于要接管世界了吗?

Nvidia发布的Cosmos 3是一个专为物理世界构建的基础模型,旨在帮助开发者训练机器人、自动驾驶系统和视觉AI代理。与传统的生成式视频模型不同,Cosmos 3着重于理解物体、动作和因果关系,支持六种交互模式,可作为机器人直接控制器或数据工厂,大幅降低机器人训练的数据成本。

Nvidia近日发布了Cosmos 3,这是一款专为物理世界构建的基础模型,旨在推动机器人和自主系统的发展。与市面上大多数旨在生成美观视频的模型不同,Cosmos 3的核心在于理解物理世界的运作规律——它关注的是物体之间的相互作用、动作的因果关系,而不仅仅是像素的排列。该模型被设计为一个统一的“全模态模型”(omni-model),能够同时处理文本、图像、视频、音频和动作,并支持包括文本生成图像、文本生成视频、图像生成视频、前向动力学预测、逆向动力学推理和生成动作策略在内的六种功能模式。

这一模型家族包含两个版本:Cosmos 3 Nano,针对低延迟实时部署进行了优化;以及Cosmos 3 Super,追求最大推理能力和生成质量。对于机器人开发者而言,最引人注目的是后三种模式:前向动力学可以根据当前场景预测接下来会发生什么;逆向动力学则能从观察结果或视频中恢复出动作序列;策略模式可以直接为智能体生成行动指令。

Cosmos 3在机器人领域有两种主要应用路径。第一种是将其作为“驾驶舱”,让机器人将观测数据发送给Cosmos,由模型实时分析并返回应该执行的动作。这种方法适合研究和快速原型验证,但由于依赖远程计算和高延迟,在需要快速响应和离线运行的商业场景中并不理想。第二种路径更为重要:将Cosmos作为“数据工厂”。开发者可以先收集真实世界的视频(例如机器人、汽车或工厂中的录像),利用逆向动力学功能为这些视频自动标注动作标签,再通过文本生成视频或图像生成视频生成大量合成变体,从而创建包含足够多样性的训练数据集。最后,利用这些数据训练一个小型、高效的机器人策略模型,该模型可以直接部署在机器人的本地硬件上,而无需再调用Cosmos本身。这正是Cosmos的价值所在:它并不直接成为机器人,而是帮助制造机器人的“工厂”,大型模型专司数据生产,小型模型负责实际执行。

这一设计理念的核心在于解决机器人领域一个根本性的数据瓶颈。与自然语言处理或计算机视觉等领域拥有海量免费互联网数据不同,机器人演示数据的获取成本极其高昂:目前每小时的演示收集需要昂贵的遥操作设备和专业操作人员,产出仅50-200个演示样本。而通用机器人策略通常需要数百万个涵盖数千种任务的演示。Cosmos通过多种方式打破这一瓶颈:利用逆向动力学将YouTube等无标签视频转化为带标签的训练数据;使用文本生成视频来扩充稀少的演示数据集;用前向动力学作为学习型模拟器,减少构建物理模拟器的工作量;以及利用策略模式作为零样本教师,将知识蒸馏到小型模型中。以打开门这一看似简单但实际极为复杂的任务为例,一个能适应各种类型门(把手、推杆、旋转门等)的机器人,原本需要无数真实演示和昂贵的硬件投资,而Cosmos可以显著降低这些成本。

当然,Cosmos 3并非万能。它在纯创意视频生成、游戏引擎内容、含有文字的图像以及科学模拟方面表现不佳。但就物理AI和机器人领域而言,它提供了一种全新的、高效的开发范式。目前,Cosmos 3 Nano已可在Baseten平台上通过单张H100 GPU运行,文字生成视频大约需要四分钟,动作模式在30秒内即可完成。这一工具的发布,无疑将加速机器人从实验室走向真实世界的进程。