2026-05-25 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Agentic-VLA: 面向視覺-語言-動作模型的高效線上自適應框架

Agentic-VLA提出了一種智慧體訓練框架，透過自適應獎勵合成、語言引導探索和經驗記憶三大創新，使VLA模型能夠在部署中高效線上自適應。在LIBERO基準測試中，長時任務提升12.3%，單樣本學習提升28.5%，跨任務遷移從0%提升至31.2%，收斂速度提升2.4倍。在RoboTwin 2.0雙機械臂基準上也保持優勢。

來源arXiv Robotics作者: Ruofan Jin, Zaixi Zhang

視覺-語言-動作（VLA）模型透過利用預訓練的視覺-語言表示，已成為機器人操作領域的一種有前景的正規化。然而，當前的VLA訓練方法存在兩個關鍵限制：對新穎環境的泛化能力差，以及訓練效率低下，需要大量演示資料。為了克服這些挑戰，由Ruofan Jin和Zaixi Zhang提出的Agentic-VLA，是一個智慧體訓練框架，使VLA能夠在部署中高效地進行線上自適應。該論文於2026年5月21日提交至arXiv，並引起廣泛關注。

Agentic-VLA的核心在於三項創新：首先，自適應獎勵合成（Adaptive Reward Synthesis）能夠根據VLA當前的能力和任務複雜度動態生成並調整獎勵函式，將複雜任務分解為可學習的子目標，從而實現課程學習。這意味著模型可以循序漸進地學習，從簡單子任務逐步過渡到複雜任務，大大提高了學習效率。其次，語言引導探索（Language-Guided Exploration）利用一個評判模型提供結構化的指導，進行系統性探索，而不是隨機取樣。評判模型根據當前狀態和任務描述，建議哪些動作可能更有價值，從而聚焦探索方向，避免無效嘗試。最後，經驗記憶（Experience Memory）機制儲存和檢索與任務相關的策略權重，為類似任務的適應提供熱啟動。當遇到新任務時，系統可以快速呼叫之前學到的相關經驗，顯著減少從零開始訓練的需求。

在LIBERO基準測試上的評估顯示了Agentic-VLA的顯著優勢：在長時任務上提升12.3%，在單樣本學習中提升28.5%，並且在沒有任務特定演示的情況下，跨任務遷移率從0%提升至31.2%。這些結果證明，Agentic-VLA不僅提升了學習速度，還實現了零樣本的跨任務泛化。此外，與現有的線上適應方法相比，該框架實現了2.4倍的收斂速度提升，意味著達到相同效能所需的互動步數大幅減少。除了LIBERO，Agentic-VLA在雙臂RoboTwin 2.0基準測試中（包括隨機Hard設定下）也保持了優勢，驗證了其在更復雜場景中的有效性。這些結果將Agentic-VLA確立為朝著真正自適應的VLA系統邁出的重要一步，此類系統能夠在部署中持續學習，無需人工干預。該工作為機器人學習領域提供了新的思路，有望推動VLA模型在現實世界中的應用。