AI News HubLIVE
站内改写1 分钟阅读

QPILOTS:流策略的高效测试时Q引导方法

QPILOTS是一种无需修改原始策略,在推理时通过Q值引导去噪过程的方法,用于优化流匹配和扩散策略。它通过将中间噪声状态投影到最终动作估计来计算批评者梯度,避免了直接反向传播的不稳定性。在50个任务的离线到在线强化学习基准测试中,平均成功率达到90%,并在模拟操作任务中优于或匹配先前方法。

来源arXiv Machine Learning作者: Yifan Ruan, Chenyang Cao, Andreas Burger, Ali Pesaranghader, Kaveh Kamali, Jaehong Kim, Nandita Vijaykumar, Alan Aspuru-Guzik, Igor Gilitschenski, Nicholas Rhinehart

近日,一篇题为《QPILOTS: Efficient Test-Time Q-Steering for Flow Policies》的论文提出了一种新颖的方法,用于高效优化流匹配和扩散策略。这类策略虽然能够生成丰富的动作,但在使用时序差分强化学习(RL)进行优化时面临巨大挑战。有效提取策略需要利用批评者的动作梯度,但直接通过多步去噪过程反向传播梯度往往会导致数值不稳定。现有方法要么完全丢弃梯度信息,要么将策略蒸馏为简单的单步动作生成器,要么随着批评者的改进反复微调去噪策略,这些方法都存在明显的局限性。

QPILOTS的核心创新在于,它完全保留原始策略不变,仅在推理时通过Q值引导去噪过程。具体来说,在每个去噪步骤中,该方法不是直接在噪声中间动作上评估批评者(因为此时批评者的预测并不可靠),而是先将中间状态投影到最终干净动作的估计值上,然后在该估计处计算批评者的梯度。论文中介绍了两种变体:QPILOTS-U采用快速单点近似,计算效率极高;而QPILOTS-M则通过一个学习的辅助网络生成可微分的后验样本,精度更高。

在标准的离线到在线强化学习基准测试中,QPILOTS在50个任务上取得了最佳综合性能,平均成功率高达90%。此外,研究者还将QPILOTS应用于一个大型、冻结的预训练视觉-语言-动作(VLA)基础模型,在六个模拟操作任务上,其性能超越了或至少持平于先前的推理时方法。这一成果展示了QPILOTS在机器人等领域的巨大应用潜力,为高效利用预训练模型提供了全新的思路。该方法不需要重新训练或修改原始模型,大大降低了部署成本,有望推动强化学习在实际系统中的应用。