NVIDIA研究解锁先进抓取、更智能的自主驾驶和规模化智能体训练
在CVPR大会上,NVIDIA研究展示了三篇论文,分别解决机器人抓取、自主驾驶推理和虚拟智能体训练中的关键挑战。GraspGen-X是首个零样本抓取基础模型,可适配任何抓取器;LCDrive通过紧凑潜在表示加快车辆推理速度;NitroGen基于Isaac GR00T架构,在虚拟环境中训练具身智能体。这些工作强调了大规模训练对泛化能力的重要性。
在今年的计算机视觉与模式识别大会(CVPR)上,NVIDIA研究团队展示了三项突破性研究,共同指向一个主题:规模化训练使系统能够跨多样化应用实现泛化。这些工作分别涉及机器人抓取、自主驾驶推理和虚拟智能体训练,代表了物理AI研究的前沿。
首个抓取基础模型
大多数机器人抓取AI系统都是专用型的。例如,为二指抓取器训练的策略只能学习使用那两个手指,而灵巧抓取策略也只适用于其训练的多指抓取器。每次更换抓取器,通常都需要重复训练数据收集、微调和验证。GraspGen-X旨在消除这一瓶颈。作为首个抓取基础模型,它理解几何和接触,从而能够为任何遇到的机器人抓取器生成可靠的抓取姿态提议。该模型在数千种物体形状和合成抓取器配置上生成了20亿次模拟抓取,覆盖了实际机器人可能遇到的各种形态。对于机器人开发者来说,这个基础模型消除了每个抓取器的训练周期,可以直接用于多种常用抓取器。GraspGen-X可与新的CUDA加速运动规划库cuRoboV2结合,在未知环境中实现这些抓取姿态。
让自主驾驶更快思考
近年来,研究人员发现,让AI进行推理——在做出最终决策前生成中间思考步骤——能可靠地改善其决策质量。但对于自主驾驶车辆来说,挑战在于在车辆实际搭载的硬件上进行这种推理。基于文本的思维链推理会生成词汇,每个词都是一个需要时间生成的token。LCDrive通过用压缩潜在表示替代词汇来解决这个问题。系统不是在生成人类可读的推理步骤,而是在紧凑的潜在空间中思考——这个空间包含空间信息而非文本。其架构在两种思考之间交替:提出候选动作,然后预测如果采取这些动作世界会变成什么样。它利用预测的世界状态来优化下一步。结果是:与基于文本的推理相比,输出轨迹质量相当,但使用的token大约只有一半。该模型基于NVIDIA Alpamayo构建,并使用现有车辆数据生成的监督进行训练。
在虚拟世界中训练具身智能体
NVIDIA的Isaac GR00T——一个用于人形机器人的开放基础模型——基于一个简单原则:让模型接触足够多样化的情境,它就能泛化到未见过的情境。NitroGen将该原则扩展到虚拟环境,利用GR00T架构在广泛的虚拟世界中训练具身智能体的基础模型。视频游戏提供了结构化的、多样的世界,具有明确的目标和明确定义的成功条件。NitroGen将它们视为训练场——最终用于处理新颖的真实或模拟世界情境的智能体。该模型在超过1000款游戏和40000小时的交互中训练,基于GR00T模型,生成的智能体能够跨环境泛化。在低数据条件下,从NitroGen开始能给智能体巨大优势,性能比之前的最先进方法提升高达52%。模型已开源,可在GitHub和Hugging Face上获取。
NVIDIA还在CVPR上展示了新的物理AI智能体技能,帮助研究人员和开发者加速自主驾驶车辆、机器人和视觉AI系统的开发。