AI News HubLIVE
站内改写1 分钟阅读

Q-VGM:用于流匹配VLA策略的Q引导值梯度匹配

Q-VGM是一种离策略强化学习方法,通过引入VGG-Flow将值梯度转化为去噪时间值梯度场,避免了对去噪链的反向传播,从而有效微调流匹配视觉-语言-动作(VLA)策略。在LIBERO、RoboTwin 2.0及真实机器人桌面任务上显著提升了成功率。

来源arXiv Robotics作者: Ziqian Wang, Jiayu Sun, Xingjian Mao, Minqian Wang, Yao Mu

Q-VGM(Q-Guided Value-Gradient Matching)是一种全新的离线强化学习方法,专门用于有效微调基于流匹配的视觉-语言-动作(VLA)策略。传统的策略梯度方法在微调流匹配策略时面临两大难题:一方面,流策略的迭代去噪过程使得计算动作似然变得不可行;另一方面,直接通过去噪链反向传播价值函数会导致严重的数值不稳定性,尤其是在大规模VLA模型上。Q-VGM通过引入VGG-Flow框架巧妙地绕过了这些障碍。VGG-Flow将价值梯度重新解释为去噪时间上的价值梯度场,从而避免了端到端的反向传播,也无需动作似然。这意味着Q-VGM可以在固定的重放缓冲区上高效运行,无需修改去噪过程。

Q-VGM的批评家部分采用了动作敏感的Cal-QL集成,它建立在紧凑的RLT特征之上,并通过逐层注入动作信息来增强对动作的敏感性。这确保了价值函数能够准确反映不同动作的质量。训练过程采用了一种实用的“少样本初始化再学习”范式:首先利用少量专家演示对pi0.5 VLA策略进行监督微调,然后让该策略在环境中自我生成rollout数据,并利用这些数据进一步改进策略,无需额外的专家监督。这种范式大大降低了对高质量演示数据的需求。

实验在多个基准测试上验证了Q-VGM的有效性。在LIBERO基准测试中,平均成功率从75.0%大幅提升至92.5%;在RoboTwin 2.0上,从76.4%提升至87.2%;在两个真实机器人桌面操作任务上,从40.0%提升至67.5%。在所有实验中,Q-VGM均一致优于使用相同骨干网络和相同批评家设计的基线方法,证明了其在微调流匹配VLA策略方面的优越性能。

该研究由Ziqian Wang等五位作者共同完成,于2026年6月6日提交至arXiv(编号2606.08015),论文共13页,包含3张图和4张表格。论文所属领域为机器人学(cs.RO)。这一方法为流匹配策略的强化学习微调提供了一种稳定、高效的解决方案,有望推动机器人操作任务的进一步发展。