2026-06-03 23:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA研究解锁先进抓取、更智能的自主驾驶和规模化智能体训练

在CVPR大会上，NVIDIA研究展示了三篇论文，分别解决机器人抓取、自主驾驶推理和虚拟智能体训练中的关键挑战。GraspGen-X是首个零样本抓取基础模型，可适配任何抓取器；LCDrive通过紧凑潜在表示加快车辆推理速度；NitroGen基于Isaac GR00T架构，在虚拟环境中训练具身智能体。这些工作强调了大规模训练对泛化能力的重要性。

来源NVIDIA Blog作者: Isha Salian

在今年的计算机视觉与模式识别大会（CVPR）上，NVIDIA研究团队展示了三项突破性研究，共同指向一个主题：规模化训练使系统能够跨多样化应用实现泛化。这些工作分别涉及机器人抓取、自主驾驶推理和虚拟智能体训练，代表了物理AI研究的前沿。

首个抓取基础模型

大多数机器人抓取AI系统都是专用型的。例如，为二指抓取器训练的策略只能学习使用那两个手指，而灵巧抓取策略也只适用于其训练的多指抓取器。每次更换抓取器，通常都需要重复训练数据收集、微调和验证。GraspGen-X旨在消除这一瓶颈。作为首个抓取基础模型，它理解几何和接触，从而能够为任何遇到的机器人抓取器生成可靠的抓取姿态提议。该模型在数千种物体形状和合成抓取器配置上生成了20亿次模拟抓取，覆盖了实际机器人可能遇到的各种形态。对于机器人开发者来说，这个基础模型消除了每个抓取器的训练周期，可以直接用于多种常用抓取器。GraspGen-X可与新的CUDA加速运动规划库cuRoboV2结合，在未知环境中实现这些抓取姿态。

让自主驾驶更快思考

近年来，研究人员发现，让AI进行推理——在做出最终决策前生成中间思考步骤——能可靠地改善其决策质量。但对于自主驾驶车辆来说，挑战在于在车辆实际搭载的硬件上进行这种推理。基于文本的思维链推理会生成词汇，每个词都是一个需要时间生成的token。LCDrive通过用压缩潜在表示替代词汇来解决这个问题。系统不是在生成人类可读的推理步骤，而是在紧凑的潜在空间中思考——这个空间包含空间信息而非文本。其架构在两种思考之间交替：提出候选动作，然后预测如果采取这些动作世界会变成什么样。它利用预测的世界状态来优化下一步。结果是：与基于文本的推理相比，输出轨迹质量相当，但使用的token大约只有一半。该模型基于NVIDIA Alpamayo构建，并使用现有车辆数据生成的监督进行训练。

在虚拟世界中训练具身智能体

NVIDIA的Isaac GR00T——一个用于人形机器人的开放基础模型——基于一个简单原则：让模型接触足够多样化的情境，它就能泛化到未见过的情境。NitroGen将该原则扩展到虚拟环境，利用GR00T架构在广泛的虚拟世界中训练具身智能体的基础模型。视频游戏提供了结构化的、多样的世界，具有明确的目标和明确定义的成功条件。NitroGen将它们视为训练场——最终用于处理新颖的真实或模拟世界情境的智能体。该模型在超过1000款游戏和40000小时的交互中训练，基于GR00T模型，生成的智能体能够跨环境泛化。在低数据条件下，从NitroGen开始能给智能体巨大优势，性能比之前的最先进方法提升高达52%。模型已开源，可在GitHub和Hugging Face上获取。

NVIDIA还在CVPR上展示了新的物理AI智能体技能，帮助研究人员和开发者加速自主驾驶车辆、机器人和视觉AI系统的开发。