2026-06-09站内改写1 分钟阅读更新: 2026-06-09

Q-VGM：用于流匹配VLA策略的Q引导值梯度匹配

Q-VGM是一种离策略强化学习方法，通过引入VGG-Flow将值梯度转化为去噪时间值梯度场，避免了对去噪链的反向传播，从而有效微调流匹配视觉-语言-动作（VLA）策略。在LIBERO、RoboTwin 2.0及真实机器人桌面任务上显著提升了成功率。

来源arXiv Robotics作者: Ziqian Wang, Jiayu Sun, Xingjian Mao, Minqian Wang, Yao Mu

Q-VGM（Q-Guided Value-Gradient Matching）是一种全新的离线强化学习方法，专门用于有效微调基于流匹配的视觉-语言-动作（VLA）策略。传统的策略梯度方法在微调流匹配策略时面临两大难题：一方面，流策略的迭代去噪过程使得计算动作似然变得不可行；另一方面，直接通过去噪链反向传播价值函数会导致严重的数值不稳定性，尤其是在大规模VLA模型上。Q-VGM通过引入VGG-Flow框架巧妙地绕过了这些障碍。VGG-Flow将价值梯度重新解释为去噪时间上的价值梯度场，从而避免了端到端的反向传播，也无需动作似然。这意味着Q-VGM可以在固定的重放缓冲区上高效运行，无需修改去噪过程。

Q-VGM的批评家部分采用了动作敏感的Cal-QL集成，它建立在紧凑的RLT特征之上，并通过逐层注入动作信息来增强对动作的敏感性。这确保了价值函数能够准确反映不同动作的质量。训练过程采用了一种实用的“少样本初始化再学习”范式：首先利用少量专家演示对pi0.5 VLA策略进行监督微调，然后让该策略在环境中自我生成rollout数据，并利用这些数据进一步改进策略，无需额外的专家监督。这种范式大大降低了对高质量演示数据的需求。

实验在多个基准测试上验证了Q-VGM的有效性。在LIBERO基准测试中，平均成功率从75.0%大幅提升至92.5%；在RoboTwin 2.0上，从76.4%提升至87.2%；在两个真实机器人桌面操作任务上，从40.0%提升至67.5%。在所有实验中，Q-VGM均一致优于使用相同骨干网络和相同批评家设计的基线方法，证明了其在微调流匹配VLA策略方面的优越性能。

该研究由Ziqian Wang等五位作者共同完成，于2026年6月6日提交至arXiv（编号2606.08015），论文共13页，包含3张图和4张表格。论文所属领域为机器人学（cs.RO）。这一方法为流匹配策略的强化学习微调提供了一种稳定、高效的解决方案，有望推动机器人操作任务的进一步发展。