AI News HubLIVE
站内改写2 分钟阅读

NVIDIA AI推出ASPIRE:一种自我改进的机器人框架,在LIBERO-Pro长任务上达到31%零样本率

NVIDIA与多所大学团队提出ASPIRE框架,通过编写和调试机器人程序,将验证过的修复转化为可复用的技能库。在LIBERO-Pro上提升高达77分,并零样本迁移到未见过的长时域任务。

来源MarkTechPost作者: Asif Razzaq

传统的机器人编程难以规模化,因为它需要手工编排多模态感知、物理接触动力学和多样化的配置。代码即策略系统让语言模型能够将这些组合成可执行的机器人程序,使行为可检查、可编辑、可调试。然而,现有的机器人编码智能体运行在简单的执行环境中,只接收粗粒度的任务级反馈,无法定位失败的根本原因——可能是感知、运动规划、抓取、接触动力学或长时域协调的问题。而且这些系统在任务结束后会丢弃修复经验,因此解决第一百个任务时并不比第一个更有经验。

来自NVIDIA、密歇根大学、UIUC、UC Berkeley和CMU的研究团队提出了ASPIRE(Agentic Skill Programming through Iterative Robot Exploration),这是一个持续学习系统,能够编写和优化机器人程序,并将验证过的修复提炼成可复用、可迁移的技能库。

ASPIRE采用协调器-执行器架构,运行三大组件:闭环执行引擎用每个原语的多模态轨迹代替粗粒度的反馈,记录每次感知、规划和控制调用的输入、输出和返回状态,包括RGB关键帧、覆盖图、抓取候选、物体姿态和运动规划结果;技能库存储异构修复,包括定位启发式、感知提示、抓取约束、运动原语和调试工作流,每个技能包含故障特征、适用条件、修复策略和代码草图;进化搜索每轮生成K个候选程序,避免陷入局部修复循环。

在模拟中,编码智能体使用Claude Code(Claude Opus 4.6),程序用CaP-X框架编写。一个实际例子是BEHAVIOR-1K中的收音机拾取任务:感知返回收音机位姿,但navigate_to_pose因目标在桌子边缘碰撞缓冲区而失败。智能体通过轨迹定位到目标不可行,编写了多角度接近的修复代码,采样多个方向的位置,最终以180度位姿成功。该修复被验证后成为可复用的导航恢复技能。

基准测试涵盖三个家族:LIBERO-Pro测试短时域鲁棒性,Robosuite测试接触丰富的操作,BEHAVIOR-1K测试长时域家庭操作。ASPIRE在LIBERO-Pro的Object套件上最高提升77分,在Goal和Spatial上分别提升41.5和42.5分;Robosuite双手交接从20%升至92%;BEHAVIOR-1K收音机任务从56%升至88%。零样本迁移尤为突出:复用LIBERO-90积累的技能,ASPIRE在未见的LIBERO-Pro Long任务上达到约31%,而此前方法仅4%。

真实机器人测试中,三个模拟发现的技能被迁移到双机械臂YAM平台,即使实体形态和API不同,仍显著降低调试成本:汽水罐举升从13/20提升至19/20,同时token消耗减少约10倍;抽屉打开从0/20提升至11/20,而无技能基线从未成功。

ASPIRE展示了将粗粒度反馈转化为结构化知识,并实现机器人持续学习的潜力。研究论文和项目页面已公开。