2026-06-01 21:26 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Nvidia在GTC Taipei重磅投入物理AI：全新世界模型、驾驶大脑和开源人形机器人

Nvidia在GTC Taipei发布了一系列用于机器人、自动驾驶和视频系统的模型，包括世界模型Cosmos 3、升级版驾驶模型Alpamayo 2 Super，以及开源人形机器人参考平台，旨在推动物理AI的发展。

来源The Decoder作者: Maximilian Schreiner

在GTC Taipei大会上，Nvidia宣布了一系列针对物理AI领域的重大发布，涵盖世界模型、自动驾驶和人形机器人等多个方向。这些发布显示了Nvidia将AI从数字世界扩展到物理世界的雄心，通过开放模型和参考平台，推动机器人、自动驾驶和视频分析技术的标准化。

Cosmos 3是Nvidia新一代开源全模态模型，能够处理文本、图像、视频、环境音频和动作数据。开发者可以利用它生成合成训练数据、解释场景并预测未来世界状态，而无需在现实世界中重现这些情况。Nvidia列举了三个主要用例：作为视觉语言模型分析视频（例如智能城市中的交通异常检测）；作为世界模型生成罕见场景的逼真视频序列；以及作为世界动作模型产生机器人学习所需的数值运动数据。该架构采用混合Transformer方法：一个推理变压器分析场景，另一个生成变压器从分析中生成视频、描述或运动轨迹。训练数据包含数十亿个样本，涵盖文本、图像、视频、音频和动作。Nvidia提供三个变体：Cosmos 3 Super（最佳质量）、Nano（快速推理）和即将推出的Edge（实时嵌入式系统）。这些模型以OpenMDW-1.1许可证在Hugging Face和GitHub上发布。同时，Nvidia宣布了“Cosmos联盟”，包括Black Forest Labs、Runway等合作伙伴，利用Nvidia的DGX Cloud训练基础设施并贡献模型和数据。

Alpamayo 2 Super是Nvidia用于L4自动驾驶的模型系列的最新旗舰，拥有320亿参数，取代了之前的100亿参数版本。该模型从摄像头图像输入，推导出驾驶决策并输出具体轨迹。与之前版本相比，它改进了空间理解和罕见情况处理能力，并新增了元动作输出（如“变道”、“停车”），附带“因果链”推理文本，旨在满足安全文档和监管审查要求。Nvidia表示，该大模型旨在作为教师模型，用于蒸馏出适合车载Drive AGX Thor芯片的较小模型。此外，Nvidia还发布了AlpaGym（用于闭环强化学习的开源框架）和OmniDreams（用于生成罕见交通场景的生成模型）。代码和权重预计将于今年夏季在GitHub和Hugging Face上发布。Nvidia未提供与Waymo或Tesla系统的直接比较数据。

Isaac GR00T参考人形机器人是Nvidia为学术研究推出的开源平台。该机器人基于Unitree H2 Plus底盘，配备来自Sharpa的触觉五指手，由Jetson AGX Thor T5000（2070 FP4 TFLOPS）驱动，总共拥有75个自由度。软件方面运行Isaac GR00T栈，涵盖遥操作、Isaac Sim仿真、基础模型和ROS中间件。Nvidia本身不销售该机器人，但Unitree计划于2026年底提供硬件。研究合作伙伴包括Ai2、苏黎世联邦理工学院、斯坦福机器人中心和加州大学圣地亚哥分校ARC实验室。通过这一参考设计，Nvidia试图标准化硬件-软件组合，加深机器人研究社区对Jetson芯片和Isaac工具的依赖。