2026-06-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-25 16:03 UTC+8

反射式VLA：利用上下文动作后果实现VLA的泛化

大多数视觉-语言-动作（VLA）模型是反应式的，仅根据当前指令和观测预测下一步动作，难以应对部署时的环境变化。本文提出反射式VLA，通过上下文中的观测-动作-后果三元组来调节决策，从而暴露部署特定的动作-效果映射。在LIBERO等基准测试中，反射式VLA在分布偏移下平均成功率提升5.4和4.2个百分点，消融实验表明动作后果而非额外上下文长度是关键。

来源arXiv Computer Vision作者: Qing Lian, Kent Yu, Lei Zhang

在计算机视觉与机器人学交叉领域，视觉-语言-动作（VLA）模型正日益受到关注。然而，现有大多数VLA模型本质上是被动的：它们仅依赖当前观测和指令来预测下一步动作，隐含假设当前观测已完全包含动作相关状态。这种反应式设计在实际部署中面临严峻挑战，因为许多与具体实体相关的因素——例如相机与机器人之间的几何关系、机器人校准误差或系统性的执行偏差——往往无法从单帧观测中识别出来。这导致模型容易过拟合训练环境，在分布变化时泛化性能不佳。

为突破这一局限，来自研究机构的Qing Lian等人提出了反射式VLA（Reflective VLA）。该模型将每个决策建立在一个由观测-动作-后果三元组构成的上下文基础上。每个三元组不仅记录机器人观察到什么、执行了什么动作，还记录了动作执行后场景如何变化。这种设计使得模型能够学习到部署环境特有的动作-效果映射，从而在环境变化时仍能做出准确判断。

在架构层面，反射式VLA将所有观测模态（如视觉、语言等）通过一个共享注意力机制的视觉语言模型（VLM）进行处理。动作专家（action expert）直接基于过去的三元组和当前观测进行推理。此外，模型采用块因果掩码（block-causal mask）实现并行多帧训练，支持键值缓存实时推理，兼顾了训练效率和推理速度。

实验部分，该模型在标准LIBERO和SimplerEnv-Bridge基准上保持了强大的分布内性能。在更具挑战性的LIBERO-Plus和LIBERO-Plus-Hard分布偏移场景中，反射式VLA相较匹配的反应式基线，平均成功率分别提升了5.4和4.2个百分点。更重要的是，与仅使用历史动作（不含后果）的对比实验表明，正是动作后果信息——而非单纯的上下文长度增加——推动了跨环境泛化能力的提升。

该研究成果已在arXiv上发布，项目页面提供更多细节。这项工作为提升VLA模型在真实机器人控制中的鲁棒性提供了新思路。