2026-07-04 14:32 UTC+8站内改写2 分钟阅读更新: 2026-07-04 14:43 UTC+8

NVIDIA AI推出ASPIRE：一种自我改进的机器人框架，在LIBERO-Pro长任务上达到31%零样本率

NVIDIA与多所大学团队提出ASPIRE框架，通过编写和调试机器人程序，将验证过的修复转化为可复用的技能库。在LIBERO-Pro上提升高达77分，并零样本迁移到未见过的长时域任务。

来源MarkTechPost作者: Asif Razzaq

传统的机器人编程难以规模化，因为它需要手工编排多模态感知、物理接触动力学和多样化的配置。代码即策略系统让语言模型能够将这些组合成可执行的机器人程序，使行为可检查、可编辑、可调试。然而，现有的机器人编码智能体运行在简单的执行环境中，只接收粗粒度的任务级反馈，无法定位失败的根本原因——可能是感知、运动规划、抓取、接触动力学或长时域协调的问题。而且这些系统在任务结束后会丢弃修复经验，因此解决第一百个任务时并不比第一个更有经验。

来自NVIDIA、密歇根大学、UIUC、UC Berkeley和CMU的研究团队提出了ASPIRE（Agentic Skill Programming through Iterative Robot Exploration），这是一个持续学习系统，能够编写和优化机器人程序，并将验证过的修复提炼成可复用、可迁移的技能库。

ASPIRE采用协调器-执行器架构，运行三大组件：闭环执行引擎用每个原语的多模态轨迹代替粗粒度的反馈，记录每次感知、规划和控制调用的输入、输出和返回状态，包括RGB关键帧、覆盖图、抓取候选、物体姿态和运动规划结果；技能库存储异构修复，包括定位启发式、感知提示、抓取约束、运动原语和调试工作流，每个技能包含故障特征、适用条件、修复策略和代码草图；进化搜索每轮生成K个候选程序，避免陷入局部修复循环。

在模拟中，编码智能体使用Claude Code（Claude Opus 4.6），程序用CaP-X框架编写。一个实际例子是BEHAVIOR-1K中的收音机拾取任务：感知返回收音机位姿，但navigate_to_pose因目标在桌子边缘碰撞缓冲区而失败。智能体通过轨迹定位到目标不可行，编写了多角度接近的修复代码，采样多个方向的位置，最终以180度位姿成功。该修复被验证后成为可复用的导航恢复技能。

基准测试涵盖三个家族：LIBERO-Pro测试短时域鲁棒性，Robosuite测试接触丰富的操作，BEHAVIOR-1K测试长时域家庭操作。ASPIRE在LIBERO-Pro的Object套件上最高提升77分，在Goal和Spatial上分别提升41.5和42.5分；Robosuite双手交接从20%升至92%；BEHAVIOR-1K收音机任务从56%升至88%。零样本迁移尤为突出：复用LIBERO-90积累的技能，ASPIRE在未见的LIBERO-Pro Long任务上达到约31%，而此前方法仅4%。

真实机器人测试中，三个模拟发现的技能被迁移到双机械臂YAM平台，即使实体形态和API不同，仍显著降低调试成本：汽水罐举升从13/20提升至19/20，同时token消耗减少约10倍；抽屉打开从0/20提升至11/20，而无技能基线从未成功。

ASPIRE展示了将粗粒度反馈转化为结构化知识，并实现机器人持续学习的潜力。研究论文和项目页面已公开。