2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

無需漂移的擴散策略優化

arXiv 論文提出 DiPOD 框架，通過自蒸餾與策略改進梯度更新交替進行，解決了擴散策略優化中的雙重漂移問題，穩定訓練並實現更高獎勵。

來源arXiv Machine Learning作者: Haozhe Jiang, Haiwen Feng, Pieter Abbeel, Jiantao Jiao, Angjoo Kanazawa, Nika Haghtalab

近期，強化學習後訓練在提升擴散策略方面變得越來越關鍵，但現有的擴散策略梯度方法常常不穩定，無法實現可靠的策略改進。來自 arXiv 的一篇新論文（arXiv:2606.13795，2026年6月11日提交）揭示了這一問題的根本原因——雙重漂移現象：優化變分代理可能導致證據下界（ELBO）與真實對數似然分離，進而使代理策略梯度與期望回報的真實策略梯度產生偏差。

為解決這個問題，研究者提出了 DiPOD（Diffusion Policy Optimization without Drifting Apart）框架。該框架通過在訓練中交替進行自蒸餾和策略改進梯度更新，始終保持緊界行為。具體來説，DiPOD 在每次擴散策略梯度更新中增加一個在線 ELBO 正則項，形成一種簡單而實用的算法。

實驗表明，在擴散語言模型後訓練和連續控制擴散策略任務中，DiPOD 顯著穩定了訓練過程，並達到了比以往方法更高的獎勵。這一工作為擴散策略的後訓練優化提供了一條可靠且高效的途徑。