AI News HubLIVE
站内改写

Agentic-VLA: 面向视觉-语言-动作模型的高效在线自适应框架

Agentic-VLA提出了一种智能体训练框架,通过自适应奖励合成、语言引导探索和经验记忆三大创新,使VLA模型能够在部署中高效在线自适应。在LIBERO基准测试中,长时任务提升12.3%,单样本学习提升28.5%,跨任务迁移从0%提升至31.2%,收敛速度提升2.4倍。在RoboTwin 2.0双机械臂基准上也保持优势。

文章情报

工程师进阶

要点

  • 提出自适应奖励合成,动态生成奖励函数,将复杂任务分解为可学习的子目标。
  • 引入语言引导探索,利用评判模型提供结构化探索指导。
  • 设计经验记忆机制,存储和检索任务相关策略权重,实现相似任务的快速启动。
  • 在LIBERO和RoboTwin 2.0基准上取得显著提升,收敛速度提升2.4倍。

为什么重要

这条新闻值得关注,因为提出自适应奖励合成,动态生成奖励函数,将复杂任务分解为可学习的子目标。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

视觉-语言-动作(VLA)模型通过利用预训练的视觉-语言表示,已成为机器人操作领域的一种有前景的范式。然而,当前的VLA训练方法存在两个关键限制:对新颖环境的泛化能力差,以及训练效率低下,需要大量演示数据。为了克服这些挑战,由Ruofan Jin和Zaixi Zhang提出的Agentic-VLA,是一个智能体训练框架,使VLA能够在部署中高效地进行在线自适应。该论文于2026年5月21日提交至arXiv,并引起广泛关注。

Agentic-VLA的核心在于三项创新:首先,自适应奖励合成(Adaptive Reward Synthesis)能够根据VLA当前的能力和任务复杂度动态生成并调整奖励函数,将复杂任务分解为可学习的子目标,从而实现课程学习。这意味着模型可以循序渐进地学习,从简单子任务逐步过渡到复杂任务,大大提高了学习效率。其次,语言引导探索(Language-Guided Exploration)利用一个评判模型提供结构化的指导,进行系统性探索,而不是随机采样。评判模型根据当前状态和任务描述,建议哪些动作可能更有价值,从而聚焦探索方向,避免无效尝试。最后,经验记忆(Experience Memory)机制存储和检索与任务相关的策略权重,为类似任务的适应提供热启动。当遇到新任务时,系统可以快速调用之前学到的相关经验,显著减少从零开始训练的需求。

在LIBERO基准测试上的评估显示了Agentic-VLA的显著优势:在长时任务上提升12.3%,在单样本学习中提升28.5%,并且在没有任务特定演示的情况下,跨任务迁移率从0%提升至31.2%。这些结果证明,Agentic-VLA不仅提升了学习速度,还实现了零样本的跨任务泛化。此外,与现有的在线适应方法相比,该框架实现了2.4倍的收敛速度提升,意味着达到相同性能所需的交互步数大幅减少。除了LIBERO,Agentic-VLA在双臂RoboTwin 2.0基准测试中(包括随机Hard设置下)也保持了优势,验证了其在更复杂场景中的有效性。这些结果将Agentic-VLA确立为朝着真正自适应的VLA系统迈出的重要一步,此类系统能够在部署中持续学习,无需人工干预。该工作为机器人学习领域提供了新的思路,有望推动VLA模型在现实世界中的应用。