NVIDIA AI推出ASPIRE:一種自我改進的機器人框架,在LIBERO-Pro長任務上達到31%零樣本率
NVIDIA與多所大學團隊提出ASPIRE框架,通過編寫和調試機器人程序,將驗證過的修復轉化為可複用的技能庫。在LIBERO-Pro上提升高達77分,並零樣本遷移到未見過的長時域任務。
傳統的機器人編程難以規模化,因為它需要手工編排多模態感知、物理接觸動力學和多樣化的配置。代碼即策略系統讓語言模型能夠將這些組合成可執行的機器人程序,使行為可檢查、可編輯、可調試。然而,現有的機器人編碼智能體運行在簡單的執行環境中,只接收粗粒度的任務級反饋,無法定位失敗的根本原因——可能是感知、運動規劃、抓取、接觸動力學或長時域協調的問題。而且這些系統在任務結束後會丟棄修復經驗,因此解決第一百個任務時並不比第一個更有經驗。
來自NVIDIA、密歇根大學、UIUC、UC Berkeley和CMU的研究團隊提出了ASPIRE(Agentic Skill Programming through Iterative Robot Exploration),這是一個持續學習系統,能夠編寫和優化機器人程序,並將驗證過的修復提煉成可複用、可遷移的技能庫。
ASPIRE採用協調器-執行器架構,運行三大組件:閉環執行引擎用每個原語的多模態軌跡代替粗粒度的反饋,記錄每次感知、規劃和控制調用的輸入、輸出和返回狀態,包括RGB關鍵幀、覆蓋圖、抓取候選、物體姿態和運動規劃結果;技能庫存儲異構修復,包括定位啓發式、感知提示、抓取約束、運動原語和調試工作流,每個技能包含故障特徵、適用條件、修復策略和代碼草圖;進化搜索每輪生成K個候選程序,避免陷入局部修復循環。
在模擬中,編碼智能體使用Claude Code(Claude Opus 4.6),程序用CaP-X框架編寫。一個實際例子是BEHAVIOR-1K中的收音機拾取任務:感知返回收音機位姿,但navigate_to_pose因目標在桌子邊緣碰撞緩衝區而失敗。智能體通過軌跡定位到目標不可行,編寫了多角度接近的修復代碼,採樣多個方向的位置,最終以180度位姿成功。該修復被驗證後成為可複用的導航恢復技能。
基準測試涵蓋三個家族:LIBERO-Pro測試短時域魯棒性,Robosuite測試接觸豐富的操作,BEHAVIOR-1K測試長時域家庭操作。ASPIRE在LIBERO-Pro的Object套件上最高提升77分,在Goal和Spatial上分別提升41.5和42.5分;Robosuite雙手交接從20%升至92%;BEHAVIOR-1K收音機任務從56%升至88%。零樣本遷移尤為突出:複用LIBERO-90積累的技能,ASPIRE在未見的LIBERO-Pro Long任務上達到約31%,而此前方法僅4%。
真實機器人測試中,三個模擬發現的技能被遷移到雙機械臂YAM平台,即使實體形態和API不同,仍顯著降低調試成本:汽水罐舉升從13/20提升至19/20,同時token消耗減少約10倍;抽屜打開從0/20提升至11/20,而無技能基線從未成功。
ASPIRE展示了將粗粒度反饋轉化為結構化知識,並實現機器人持續學習的潛力。研究論文和項目頁面已公開。