AI News HubLIVE
站内改写1 分鐘閱讀

無需漂移的擴散策略優化

arXiv 論文提出 DiPOD 框架,通過自蒸餾與策略改進梯度更新交替進行,解決了擴散策略優化中的雙重漂移問題,穩定訓練並實現更高獎勵。

來源arXiv Machine Learning作者: Haozhe Jiang, Haiwen Feng, Pieter Abbeel, Jiantao Jiao, Angjoo Kanazawa, Nika Haghtalab

近期,強化學習後訓練在提升擴散策略方面變得越來越關鍵,但現有的擴散策略梯度方法常常不穩定,無法實現可靠的策略改進。來自 arXiv 的一篇新論文(arXiv:2606.13795,2026年6月11日提交)揭示了這一問題的根本原因——雙重漂移現象:優化變分代理可能導致證據下界(ELBO)與真實對數似然分離,進而使代理策略梯度與期望回報的真實策略梯度產生偏差。

為解決這個問題,研究者提出了 DiPOD(Diffusion Policy Optimization without Drifting Apart)框架。該框架通過在訓練中交替進行自蒸餾和策略改進梯度更新,始終保持緊界行為。具體來説,DiPOD 在每次擴散策略梯度更新中增加一個在線 ELBO 正則項,形成一種簡單而實用的算法。

實驗表明,在擴散語言模型後訓練和連續控制擴散策略任務中,DiPOD 顯著穩定了訓練過程,並達到了比以往方法更高的獎勵。這一工作為擴散策略的後訓練優化提供了一條可靠且高效的途徑。