2026-06-16站内改写1 分钟阅读更新: 2026-06-16

QPILOTS：流策略的高效测试时Q引导方法

QPILOTS是一种无需修改原始策略，在推理时通过Q值引导去噪过程的方法，用于优化流匹配和扩散策略。它通过将中间噪声状态投影到最终动作估计来计算批评者梯度，避免了直接反向传播的不稳定性。在50个任务的离线到在线强化学习基准测试中，平均成功率达到90%，并在模拟操作任务中优于或匹配先前方法。

来源arXiv Machine Learning作者: Yifan Ruan, Chenyang Cao, Andreas Burger, Ali Pesaranghader, Kaveh Kamali, Jaehong Kim, Nandita Vijaykumar, Alan Aspuru-Guzik, Igor Gilitschenski, Nicholas Rhinehart

近日，一篇题为《QPILOTS: Efficient Test-Time Q-Steering for Flow Policies》的论文提出了一种新颖的方法，用于高效优化流匹配和扩散策略。这类策略虽然能够生成丰富的动作，但在使用时序差分强化学习（RL）进行优化时面临巨大挑战。有效提取策略需要利用批评者的动作梯度，但直接通过多步去噪过程反向传播梯度往往会导致数值不稳定。现有方法要么完全丢弃梯度信息，要么将策略蒸馏为简单的单步动作生成器，要么随着批评者的改进反复微调去噪策略，这些方法都存在明显的局限性。

QPILOTS的核心创新在于，它完全保留原始策略不变，仅在推理时通过Q值引导去噪过程。具体来说，在每个去噪步骤中，该方法不是直接在噪声中间动作上评估批评者（因为此时批评者的预测并不可靠），而是先将中间状态投影到最终干净动作的估计值上，然后在该估计处计算批评者的梯度。论文中介绍了两种变体：QPILOTS-U采用快速单点近似，计算效率极高；而QPILOTS-M则通过一个学习的辅助网络生成可微分的后验样本，精度更高。

在标准的离线到在线强化学习基准测试中，QPILOTS在50个任务上取得了最佳综合性能，平均成功率高达90%。此外，研究者还将QPILOTS应用于一个大型、冻结的预训练视觉-语言-动作（VLA）基础模型，在六个模拟操作任务上，其性能超越了或至少持平于先前的推理时方法。这一成果展示了QPILOTS在机器人等领域的巨大应用潜力，为高效利用预训练模型提供了全新的思路。该方法不需要重新训练或修改原始模型，大大降低了部署成本，有望推动强化学习在实际系统中的应用。