AI News HubLIVE
站内改写

Agentic-VLA: 面向視覺-語言-動作模型的高效線上自適應框架

Agentic-VLA提出了一種智慧體訓練框架,透過自適應獎勵合成、語言引導探索和經驗記憶三大創新,使VLA模型能夠在部署中高效線上自適應。在LIBERO基準測試中,長時任務提升12.3%,單樣本學習提升28.5%,跨任務遷移從0%提升至31.2%,收斂速度提升2.4倍。在RoboTwin 2.0雙機械臂基準上也保持優勢。

文章情報

工程師進階

要點

  • 提出自適應獎勵合成,動態生成獎勵函式,將複雜任務分解為可學習的子目標。
  • 引入語言引導探索,利用評判模型提供結構化探索指導。
  • 設計經驗記憶機制,儲存和檢索任務相關策略權重,實現相似任務的快速啟動。
  • 在LIBERO和RoboTwin 2.0基準上取得顯著提升,收斂速度提升2.4倍。

為什麼重要

這條新聞值得關注,因為提出自適應獎勵合成,動態生成獎勵函式,將複雜任務分解為可學習的子目標。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

視覺-語言-動作(VLA)模型透過利用預訓練的視覺-語言表示,已成為機器人操作領域的一種有前景的正規化。然而,當前的VLA訓練方法存在兩個關鍵限制:對新穎環境的泛化能力差,以及訓練效率低下,需要大量演示資料。為了克服這些挑戰,由Ruofan Jin和Zaixi Zhang提出的Agentic-VLA,是一個智慧體訓練框架,使VLA能夠在部署中高效地進行線上自適應。該論文於2026年5月21日提交至arXiv,並引起廣泛關注。

Agentic-VLA的核心在於三項創新:首先,自適應獎勵合成(Adaptive Reward Synthesis)能夠根據VLA當前的能力和任務複雜度動態生成並調整獎勵函式,將複雜任務分解為可學習的子目標,從而實現課程學習。這意味著模型可以循序漸進地學習,從簡單子任務逐步過渡到複雜任務,大大提高了學習效率。其次,語言引導探索(Language-Guided Exploration)利用一個評判模型提供結構化的指導,進行系統性探索,而不是隨機取樣。評判模型根據當前狀態和任務描述,建議哪些動作可能更有價值,從而聚焦探索方向,避免無效嘗試。最後,經驗記憶(Experience Memory)機制儲存和檢索與任務相關的策略權重,為類似任務的適應提供熱啟動。當遇到新任務時,系統可以快速呼叫之前學到的相關經驗,顯著減少從零開始訓練的需求。

在LIBERO基準測試上的評估顯示了Agentic-VLA的顯著優勢:在長時任務上提升12.3%,在單樣本學習中提升28.5%,並且在沒有任務特定演示的情況下,跨任務遷移率從0%提升至31.2%。這些結果證明,Agentic-VLA不僅提升了學習速度,還實現了零樣本的跨任務泛化。此外,與現有的線上適應方法相比,該框架實現了2.4倍的收斂速度提升,意味著達到相同效能所需的互動步數大幅減少。除了LIBERO,Agentic-VLA在雙臂RoboTwin 2.0基準測試中(包括隨機Hard設定下)也保持了優勢,驗證了其在更復雜場景中的有效性。這些結果將Agentic-VLA確立為朝著真正自適應的VLA系統邁出的重要一步,此類系統能夠在部署中持續學習,無需人工干預。該工作為機器人學習領域提供了新的思路,有望推動VLA模型在現實世界中的應用。