2026-07-04 14:32 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-04 14:43 UTC+8

NVIDIA AI推出ASPIRE：一種自我改進的機器人框架，在LIBERO-Pro長任務上達到31%零樣本率

NVIDIA與多所大學團隊提出ASPIRE框架，通過編寫和調試機器人程序，將驗證過的修復轉化為可複用的技能庫。在LIBERO-Pro上提升高達77分，並零樣本遷移到未見過的長時域任務。

來源MarkTechPost作者: Asif Razzaq

傳統的機器人編程難以規模化，因為它需要手工編排多模態感知、物理接觸動力學和多樣化的配置。代碼即策略系統讓語言模型能夠將這些組合成可執行的機器人程序，使行為可檢查、可編輯、可調試。然而，現有的機器人編碼智能體運行在簡單的執行環境中，只接收粗粒度的任務級反饋，無法定位失敗的根本原因——可能是感知、運動規劃、抓取、接觸動力學或長時域協調的問題。而且這些系統在任務結束後會丟棄修復經驗，因此解決第一百個任務時並不比第一個更有經驗。

來自NVIDIA、密歇根大學、UIUC、UC Berkeley和CMU的研究團隊提出了ASPIRE（Agentic Skill Programming through Iterative Robot Exploration），這是一個持續學習系統，能夠編寫和優化機器人程序，並將驗證過的修復提煉成可複用、可遷移的技能庫。

ASPIRE採用協調器-執行器架構，運行三大組件：閉環執行引擎用每個原語的多模態軌跡代替粗粒度的反饋，記錄每次感知、規劃和控制調用的輸入、輸出和返回狀態，包括RGB關鍵幀、覆蓋圖、抓取候選、物體姿態和運動規劃結果；技能庫存儲異構修復，包括定位啓發式、感知提示、抓取約束、運動原語和調試工作流，每個技能包含故障特徵、適用條件、修復策略和代碼草圖；進化搜索每輪生成K個候選程序，避免陷入局部修復循環。

在模擬中，編碼智能體使用Claude Code（Claude Opus 4.6），程序用CaP-X框架編寫。一個實際例子是BEHAVIOR-1K中的收音機拾取任務：感知返回收音機位姿，但navigate_to_pose因目標在桌子邊緣碰撞緩衝區而失敗。智能體通過軌跡定位到目標不可行，編寫了多角度接近的修復代碼，採樣多個方向的位置，最終以180度位姿成功。該修復被驗證後成為可複用的導航恢復技能。

基準測試涵蓋三個家族：LIBERO-Pro測試短時域魯棒性，Robosuite測試接觸豐富的操作，BEHAVIOR-1K測試長時域家庭操作。ASPIRE在LIBERO-Pro的Object套件上最高提升77分，在Goal和Spatial上分別提升41.5和42.5分；Robosuite雙手交接從20%升至92%；BEHAVIOR-1K收音機任務從56%升至88%。零樣本遷移尤為突出：複用LIBERO-90積累的技能，ASPIRE在未見的LIBERO-Pro Long任務上達到約31%，而此前方法僅4%。

真實機器人測試中，三個模擬發現的技能被遷移到雙機械臂YAM平台，即使實體形態和API不同，仍顯著降低調試成本：汽水罐舉升從13/20提升至19/20，同時token消耗減少約10倍；抽屜打開從0/20提升至11/20，而無技能基線從未成功。

ASPIRE展示了將粗粒度反饋轉化為結構化知識，並實現機器人持續學習的潛力。研究論文和項目頁面已公開。