NVIDIA AIがASPIREを発表:自己改善型ロボティクスフレームワーク、LIBERO-Pro長期タスクで31%のゼロショット達成
NVIDIAのASPIREはロボット制御プログラムを作成・改良し、検証済みの修正を再利用可能なスキルライブラリに抽出します。LIBERO-Proで最大77ポイント向上し、未見の長期タスクにゼロショット転移します。
従来のロボットプログラミングは拡張が難しく、マルチモーダル知覚、物理接触力学、多様な構成を手作業で調整する必要がありました。コード・アズ・ポリシーシステムにより言語モデルが実行可能なプログラムを生成できるようになりましたが、既存のエージェントは粗いタスクレベルフィードバックしか受け取れず、失敗の根本原因を特定できず、タスク終了後に修正を破棄していました。NVIDIA、ミシガン大学、UIUC、UC Berkeley、CMUの研究チームはASPIRE(Agentic Skill Programming through Iterative Robot Exploration)を提案しました。これはロボット制御プログラムを作成・デバッグし、検証済み修正を再利用可能で転移可能なスキルライブラリに抽出する継続学習システムです。
ASPIREはコーディネータ・アクターアーキテクチャを採用し、3つのコンポーネントを実行します。クローズドループ実行エンジンは各プリミティブのマルチモーダルトレース(RGBキーフレーム、グリップ候補、物体姿勢、運動計画結果など)を記録します。スキルライブラリは故障シグニチャ、適用条件、修復戦略、コードスケッチを格納します。進化的探索は毎ラウンドK個の候補プログラムを生成し、局所的な修復ループを防止します。シミュレーションではClaude Opus 4.6を使用し、CaP-Xフレームワークでプログラムを作成します。
実際の例として、BEHAVIOR-1Kのラジオ拾い上げタスクで、目標位置がテーブル端の衝突回避バッファ内にあるためnavigate_to_poseが失敗しました。エージェントはトレースから目標の非実現可能性を特定し、ラジオ周囲のスタンドオフポーズをサンプリングする多角度接近修復を記述しました。180度のポーズで成功し、この修正は再利用可能なナビゲーション回復スキルとしてライブラリに追加されました。
ベンチマーク評価では、ASPIREはLIBERO-ProのObjectスイートで最大77ポイント向上、Robosuiteの両手ハンドオーバーは20%から92%、BEHAVIOR-1Kのラジオタスクは56%から88%に改善しました。ゼロショット転移では、LIBERO-90で蓄積したスキルを用いて、未見のLIBERO-Pro Longタスクで約31%を達成(従来手法は約4%)。実際のロボット実験では、シミュレーションで発見した3つのスキルを異なる形態とAPIの双腕YAMステーションに転送し、ソーダ缶持ち上げは13/20から19/20に改善、トークン消費は約10分の1に削減されました。ASPIREは粗いフィードバックを構造化知識に変換し、ロボットの継続的学習を実現する可能性を示しています。