AI News HubLIVE
站内改写2 分钟阅读

Nvidia在GTC Taipei重磅投入物理AI:全新世界模型、驾驶大脑和开源人形机器人

Nvidia在GTC Taipei发布了一系列用于机器人、自动驾驶和视频系统的模型,包括世界模型Cosmos 3、升级版驾驶模型Alpamayo 2 Super,以及开源人形机器人参考平台,旨在推动物理AI的发展。

来源The Decoder作者: Maximilian Schreiner

在GTC Taipei大会上,Nvidia宣布了一系列针对物理AI领域的重大发布,涵盖世界模型、自动驾驶和人形机器人等多个方向。这些发布显示了Nvidia将AI从数字世界扩展到物理世界的雄心,通过开放模型和参考平台,推动机器人、自动驾驶和视频分析技术的标准化。

Cosmos 3是Nvidia新一代开源全模态模型,能够处理文本、图像、视频、环境音频和动作数据。开发者可以利用它生成合成训练数据、解释场景并预测未来世界状态,而无需在现实世界中重现这些情况。Nvidia列举了三个主要用例:作为视觉语言模型分析视频(例如智能城市中的交通异常检测);作为世界模型生成罕见场景的逼真视频序列;以及作为世界动作模型产生机器人学习所需的数值运动数据。该架构采用混合Transformer方法:一个推理变压器分析场景,另一个生成变压器从分析中生成视频、描述或运动轨迹。训练数据包含数十亿个样本,涵盖文本、图像、视频、音频和动作。Nvidia提供三个变体:Cosmos 3 Super(最佳质量)、Nano(快速推理)和即将推出的Edge(实时嵌入式系统)。这些模型以OpenMDW-1.1许可证在Hugging Face和GitHub上发布。同时,Nvidia宣布了“Cosmos联盟”,包括Black Forest Labs、Runway等合作伙伴,利用Nvidia的DGX Cloud训练基础设施并贡献模型和数据。

Alpamayo 2 Super是Nvidia用于L4自动驾驶的模型系列的最新旗舰,拥有320亿参数,取代了之前的100亿参数版本。该模型从摄像头图像输入,推导出驾驶决策并输出具体轨迹。与之前版本相比,它改进了空间理解和罕见情况处理能力,并新增了元动作输出(如“变道”、“停车”),附带“因果链”推理文本,旨在满足安全文档和监管审查要求。Nvidia表示,该大模型旨在作为教师模型,用于蒸馏出适合车载Drive AGX Thor芯片的较小模型。此外,Nvidia还发布了AlpaGym(用于闭环强化学习的开源框架)和OmniDreams(用于生成罕见交通场景的生成模型)。代码和权重预计将于今年夏季在GitHub和Hugging Face上发布。Nvidia未提供与Waymo或Tesla系统的直接比较数据。

Isaac GR00T参考人形机器人是Nvidia为学术研究推出的开源平台。该机器人基于Unitree H2 Plus底盘,配备来自Sharpa的触觉五指手,由Jetson AGX Thor T5000(2070 FP4 TFLOPS)驱动,总共拥有75个自由度。软件方面运行Isaac GR00T栈,涵盖遥操作、Isaac Sim仿真、基础模型和ROS中间件。Nvidia本身不销售该机器人,但Unitree计划于2026年底提供硬件。研究合作伙伴包括Ai2、苏黎世联邦理工学院、斯坦福机器人中心和加州大学圣地亚哥分校ARC实验室。通过这一参考设计,Nvidia试图标准化硬件-软件组合,加深机器人研究社区对Jetson芯片和Isaac工具的依赖。