AI News HubLIVE
站内改写

NVIDIA研究推动机器人技术从模拟走向现实世界

在ICRA上,NVIDIA Research展示了28篇论文中的8篇,重点研究模拟到现实的迁移,使机器人能够在动态、不可预测的环境中感知、推理、规划和行动。这些方法涵盖多臂协调、跨机器人导航、抓取、精确装配和视觉-语言-动作模型,显著提高了成功率和可靠性。

文章情报

工程师进阶

要点

  • NVIDIA在ICRA上提交了8篇关于模拟到现实迁移的论文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
  • 这些技术在多臂协调、导航、抓取和装配任务中实现了显著改进
  • 同时发布了大型开源数据集以加速机器人研究

为什么重要

这条新闻值得关注,因为NVIDIA在ICRA上提交了8篇关于模拟到现实迁移的论文。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

机器人技术正进入一个新阶段:从受控演示和脚本化自动化转向可泛化、可靠的现实世界具身自主。在国际机器人与自动化大会(ICRA)上,NVIDIA Research的28篇被接收论文中有8篇展示了模拟到现实迁移如何成为这一转变的基础,帮助机器人在动态、不可预测的环境中感知、推理、规划和行动。

这些论文涵盖了机器人开发者面临的全栈挑战:并行协调多个机械臂、构建能跨机器人本体泛化的策略、在杂乱环境中抓取新物体、执行精确装配以及开发在行动前进行推理的视觉-语言-动作模型。核心思路十分清晰:模拟到现实迁移正成为机器人在实验室外适应、泛化和更可靠运行的基础。

**协调机械臂、导航本体、抓取物体** 想象一个由机械臂运行的制药实验室:拿起试管、转移液体、混合试剂——每个步骤所需时间不同,都需要精心协调。传统的机器人调度软件按顺序处理这些步骤,一次只操作一个机械臂。ScheduleStream通过让多个机械臂并行规划运动和操作改变了这一局面——在NVIDIA Jetson边缘AI平台上,多臂规划场景的速度提升了3倍。相关框架代码已在GitHub上开源。

COMPASS策略框架首先使用模仿学习构建基础导航功能,然后在NVIDIA Isaac Lab中使用残差强化学习为不同机器人形态构建专用策略。关键在于,整个过程不涉及任何真实机器人数据:一切都在Isaac Lab模拟中训练。与模仿学习基线相比,COMPASS的平均成功率提高了4.5倍,并能在真实环境中无缝迁移,在自主移动机器人和人形机器人的20次真实导航测试中实现了约80%的成功率。开发者还可以将COMPASS与NVIDIA Omniverse NuRec连接,在部署前于数字孪生环境中后训练和验证机器人。

大多数抓取系统先识别物体、预测抓取、规划路径,然后执行。但最后几厘米是最容易出错的地方。Grasp-MPC自适应计算机器人的抓取动作,在接近物体时持续修正运动,而不是执行固定计划——就像人抓东西时凭感觉而不是预先计算每个关节角度。研究人员使用GraspGen数据集和cuRobo运动规划数据生成了200万条模拟轨迹,涵盖8000个物体。在成功和失败轨迹上训练后,Grasp-MPC学会在杂乱的桌面和货架上抓取新物体,真实机器人总体成功率约75%,而基线仅为41%。

**精确装配** 精确装配——例如将螺母拧到螺栓上、将齿轮安装到轴上、将销钉压入孔中——仅靠模拟很难实现。真实表面并非完美光滑,传感器行为也非理想。SPARR方法通过分两步解决这一问题:在Isaac Lab中训练的策略学习装配任务的一般策略;然后在实际硬件上,第二层利用机器人自身摄像头学习修正模拟错误,无需人类演示或指导。SPARR将成功率提高了38%,循环时间减少了约30%。在未训练过的NIST装配任务上,成功率提高了近75%,接近需要人工介入的方法的效果。Refinery框架应对多步骤顺序装配任务:通过理解不同初始条件下的成功率变化,学习如何完成每一步并将组件置于有利后续步骤的位置,模拟成功率达91%,比基线平均提高近11%。

**言行一致的动作模型** PEEK管道帮助机器人忽略杂乱场景。在典型操作任务中,机器人摄像头捕获整个场景,但大部分是无关噪声。PEEK通过让视觉语言模型读取任务指令并聚焦机器人的视线来解决这一问题——显示运动路径,高亮相关物体,淡化其他内容。策略在注释后的视图上行动,而非原始场景。对于纯模拟训练的策略,添加PEEK使真实世界准确率提高了41倍;对于大型VLA模型和小型策略,提升幅度在2-3.5倍之间。由于工作在图像级别,PEEK无需修改即可与任何基于相机的策略集成。

SEAL方法解决了机器人执行长复杂任务时的“言行不一”问题:机器人生成多个候选动作序列,推理每个序列的实际结果,选择与指令最匹配的。SEAL的准确率比先前工作提高了15%,并且对指令重述、物体变化、场景杂乱和相机角度变化具有鲁棒性。

除了论文,NVIDIA还扩大了机器人研究基础设施,发布了大型开源数据集。NVIDIA Physical AI Dataset已成为全球最大的物理开发开放数据集,下载量超过1500万次;NVIDIA Isaac GR00T X Embodiment Sim已成为下载量最大的机器人数据集之一。