AI News HubLIVE
站内改写1 分钟阅读

反射式VLA:利用上下文动作后果实现VLA的泛化

大多数视觉-语言-动作(VLA)模型是反应式的,仅根据当前指令和观测预测下一步动作,难以应对部署时的环境变化。本文提出反射式VLA,通过上下文中的观测-动作-后果三元组来调节决策,从而暴露部署特定的动作-效果映射。在LIBERO等基准测试中,反射式VLA在分布偏移下平均成功率提升5.4和4.2个百分点,消融实验表明动作后果而非额外上下文长度是关键。

来源arXiv Computer Vision作者: Qing Lian, Kent Yu, Lei Zhang

在计算机视觉与机器人学交叉领域,视觉-语言-动作(VLA)模型正日益受到关注。然而,现有大多数VLA模型本质上是被动的:它们仅依赖当前观测和指令来预测下一步动作,隐含假设当前观测已完全包含动作相关状态。这种反应式设计在实际部署中面临严峻挑战,因为许多与具体实体相关的因素——例如相机与机器人之间的几何关系、机器人校准误差或系统性的执行偏差——往往无法从单帧观测中识别出来。这导致模型容易过拟合训练环境,在分布变化时泛化性能不佳。

为突破这一局限,来自研究机构的Qing Lian等人提出了反射式VLA(Reflective VLA)。该模型将每个决策建立在一个由观测-动作-后果三元组构成的上下文基础上。每个三元组不仅记录机器人观察到什么、执行了什么动作,还记录了动作执行后场景如何变化。这种设计使得模型能够学习到部署环境特有的动作-效果映射,从而在环境变化时仍能做出准确判断。

在架构层面,反射式VLA将所有观测模态(如视觉、语言等)通过一个共享注意力机制的视觉语言模型(VLM)进行处理。动作专家(action expert)直接基于过去的三元组和当前观测进行推理。此外,模型采用块因果掩码(block-causal mask)实现并行多帧训练,支持键值缓存实时推理,兼顾了训练效率和推理速度。

实验部分,该模型在标准LIBERO和SimplerEnv-Bridge基准上保持了强大的分布内性能。在更具挑战性的LIBERO-Plus和LIBERO-Plus-Hard分布偏移场景中,反射式VLA相较匹配的反应式基线,平均成功率分别提升了5.4和4.2个百分点。更重要的是,与仅使用历史动作(不含后果)的对比实验表明,正是动作后果信息——而非单纯的上下文长度增加——推动了跨环境泛化能力的提升。

该研究成果已在arXiv上发布,项目页面提供更多细节。这项工作为提升VLA模型在真实机器人控制中的鲁棒性提供了新思路。