无需漂移的扩散策略优化
arXiv 论文提出 DiPOD 框架,通过自蒸馏与策略改进梯度更新交替进行,解决了扩散策略优化中的双重漂移问题,稳定训练并实现更高奖励。
来源arXiv Machine Learning作者: Haozhe Jiang, Haiwen Feng, Pieter Abbeel, Jiantao Jiao, Angjoo Kanazawa, Nika Haghtalab
近期,强化学习后训练在提升扩散策略方面变得越来越关键,但现有的扩散策略梯度方法常常不稳定,无法实现可靠的策略改进。来自 arXiv 的一篇新论文(arXiv:2606.13795,2026年6月11日提交)揭示了这一问题的根本原因——双重漂移现象:优化变分代理可能导致证据下界(ELBO)与真实对数似然分离,进而使代理策略梯度与期望回报的真实策略梯度产生偏差。
为解决这个问题,研究者提出了 DiPOD(Diffusion Policy Optimization without Drifting Apart)框架。该框架通过在训练中交替进行自蒸馏和策略改进梯度更新,始终保持紧界行为。具体来说,DiPOD 在每次扩散策略梯度更新中增加一个在线 ELBO 正则项,形成一种简单而实用的算法。
实验表明,在扩散语言模型后训练和连续控制扩散策略任务中,DiPOD 显著稳定了训练过程,并达到了比以往方法更高的奖励。这一工作为扩散策略的后训练优化提供了一条可靠且高效的途径。