2026-06-15站内改写1 分钟阅读更新: 2026-06-15

无需漂移的扩散策略优化

arXiv 论文提出 DiPOD 框架，通过自蒸馏与策略改进梯度更新交替进行，解决了扩散策略优化中的双重漂移问题，稳定训练并实现更高奖励。

来源arXiv Machine Learning作者: Haozhe Jiang, Haiwen Feng, Pieter Abbeel, Jiantao Jiao, Angjoo Kanazawa, Nika Haghtalab

近期，强化学习后训练在提升扩散策略方面变得越来越关键，但现有的扩散策略梯度方法常常不稳定，无法实现可靠的策略改进。来自 arXiv 的一篇新论文（arXiv:2606.13795，2026年6月11日提交）揭示了这一问题的根本原因——双重漂移现象：优化变分代理可能导致证据下界（ELBO）与真实对数似然分离，进而使代理策略梯度与期望回报的真实策略梯度产生偏差。

为解决这个问题，研究者提出了 DiPOD（Diffusion Policy Optimization without Drifting Apart）框架。该框架通过在训练中交替进行自蒸馏和策略改进梯度更新，始终保持紧界行为。具体来说，DiPOD 在每次扩散策略梯度更新中增加一个在线 ELBO 正则项，形成一种简单而实用的算法。

实验表明，在扩散语言模型后训练和连续控制扩散策略任务中，DiPOD 显著稳定了训练过程，并达到了比以往方法更高的奖励。这一工作为扩散策略的后训练优化提供了一条可靠且高效的途径。