2026-05-25 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Agentic-VLA: 面向视觉-语言-动作模型的高效在线自适应框架

Agentic-VLA提出了一种智能体训练框架，通过自适应奖励合成、语言引导探索和经验记忆三大创新，使VLA模型能够在部署中高效在线自适应。在LIBERO基准测试中，长时任务提升12.3%，单样本学习提升28.5%，跨任务迁移从0%提升至31.2%，收敛速度提升2.4倍。在RoboTwin 2.0双机械臂基准上也保持优势。

来源arXiv Robotics作者: Ruofan Jin, Zaixi Zhang

视觉-语言-动作（VLA）模型通过利用预训练的视觉-语言表示，已成为机器人操作领域的一种有前景的范式。然而，当前的VLA训练方法存在两个关键限制：对新颖环境的泛化能力差，以及训练效率低下，需要大量演示数据。为了克服这些挑战，由Ruofan Jin和Zaixi Zhang提出的Agentic-VLA，是一个智能体训练框架，使VLA能够在部署中高效地进行在线自适应。该论文于2026年5月21日提交至arXiv，并引起广泛关注。

Agentic-VLA的核心在于三项创新：首先，自适应奖励合成（Adaptive Reward Synthesis）能够根据VLA当前的能力和任务复杂度动态生成并调整奖励函数，将复杂任务分解为可学习的子目标，从而实现课程学习。这意味着模型可以循序渐进地学习，从简单子任务逐步过渡到复杂任务，大大提高了学习效率。其次，语言引导探索（Language-Guided Exploration）利用一个评判模型提供结构化的指导，进行系统性探索，而不是随机采样。评判模型根据当前状态和任务描述，建议哪些动作可能更有价值，从而聚焦探索方向，避免无效尝试。最后，经验记忆（Experience Memory）机制存储和检索与任务相关的策略权重，为类似任务的适应提供热启动。当遇到新任务时，系统可以快速调用之前学到的相关经验，显著减少从零开始训练的需求。

在LIBERO基准测试上的评估显示了Agentic-VLA的显著优势：在长时任务上提升12.3%，在单样本学习中提升28.5%，并且在没有任务特定演示的情况下，跨任务迁移率从0%提升至31.2%。这些结果证明，Agentic-VLA不仅提升了学习速度，还实现了零样本的跨任务泛化。此外，与现有的在线适应方法相比，该框架实现了2.4倍的收敛速度提升，意味着达到相同性能所需的交互步数大幅减少。除了LIBERO，Agentic-VLA在双臂RoboTwin 2.0基准测试中（包括随机Hard设置下）也保持了优势，验证了其在更复杂场景中的有效性。这些结果将Agentic-VLA确立为朝着真正自适应的VLA系统迈出的重要一步，此类系统能够在部署中持续学习，无需人工干预。该工作为机器人学习领域提供了新的思路，有望推动VLA模型在现实世界中的应用。