AI News HubLIVE
站内改写1 分钟阅读

FlowPRO:通过邻近偏好优化实现流匹配VLA的无奖励强化微调

FlowPRO 提出了一种无奖励的离线强化微调框架,用于流匹配视觉-语言-动作(VLA)模型。其核心算法 RPRO 结合对比优化器和显式邻近正则化,消除了奖励破解问题。通过遥操作干预-回滚范式收集成对轨迹,并结合平滑插值和批量混合,实现密集状态监督。在四个长时程双臂任务中,FlowPRO 取得了最高成功率,超越了四种基线方法。

来源arXiv Robotics作者: Yihao Wu, He Zhang, Junbo Tan, Xueqian Wang, Zhengyou Zhang

将视觉-语言-动作(VLA)模型后训练为可可靠部署于真实机器人的策略,一直是机器人学的主要瓶颈。监督微调(SFT)和行为克隆(DAgger)仅间接利用失败信号,而基于奖励的强化学习则受限于真实世界奖励设计的困难以及可靠评论家训练的复杂性。为此,研究团队提出了 FlowPRO——一种专为流匹配 VLA 设计的无奖励离线强化微调框架。

算法上,FlowPRO 的核心是 RPRO(机器人流匹配邻近偏好优化),这是一个针对 VLA 模型流匹配动作头定制的偏好优化目标。RPRO 将对比优化器与显式邻近正则化器配对,后者通过锚定隐式奖励的绝对幅度,消除了普通 Flow-DPO 中常见的奖励破解故障模式。这种设计使得模型在优化过程中保持稳定,避免因奖励信号膨胀导致的性能崩溃。

在数据方面,FlowPRO 引入了一种遥操作干预-回滚范式。操作员通过单个动作在真实机器人上自然产生成对的正负轨迹(τ^w, τ^l)。随后,结合批量混合的平滑插值过程将这些稀疏的修正转换为密集的每状态监督,同时保留基础策略的能力。这种方法无需人工标注奖励信号,显著降低了数据获取成本。

实验在四个长时程双臂任务上进行,包括物体操作和协调动作。FlowPRO 取得了最高的成功率,优于四种代表性基线方法(包括 SFT、DAgger、Flow-DPO 等)。消融实验进一步证实了每个损失组件的贡献,特别是邻近正则化在抑制奖励破解中的关键作用。

FlowPRO 的提出为机器人策略微调提供了一种高效、无奖励的解决方案,有望推动 VLA 模型在真实世界中的广泛应用。该工作已在 arXiv 上发表,并提供了完整的算法细节和实验分析。