梯度平滑:耦合層更新以優化優化
本文提出深度梯度增強框架,通過沿深度維度變換優化器更新來利用層間結構關係。其中梯度平滑方法直接作用於任意基優化器(如SGD、Adam、Muon)的塊更新,計算開銷小,在語言模型預訓練、推理後訓練、擴散模型和視覺Transformer中均一致提升優化與泛化性能,並促進更有結構的表示演化。
深度神經網絡中重複的架構模塊(如Transformer)在訓練過程中往往會展現出層間的結構關係。這一現象啓發了研究者提出一種新的優化範式——深度梯度增強(Depth-wise Gradient Augmentation),旨在通過沿深度維度對優化器更新進行變換,來耦合各層的更新過程。該框架的核心思想是:不是獨立地更新每一層,而是將各層的塊更新視為一個序列,並對其施加平滑操作。
具體而言,論文研究了梯度平滑(Gradient Smoothing)方法族,並實例化為一種簡單的局部窗口平滑(Window Smoothing)算子。該方法直接作用於任意基礎優化器(如SGD、Adam、Muon)產生的塊更新,計算開銷極小,且無需修改模型架構或訓練目標,易於集成到現有優化流水線中。
實驗部分,研究者在多種架構和訓練場景中評估了梯度平滑的效果,包括語言模型預訓練、大語言模型的推理強化學習後訓練、擴散模型以及視覺Transformer的圖像分類任務。結果表明,梯度平滑在所有任務上均一致地提升了優化速度和泛化性能,同時促進了深度方向表示演化的結構規則性。論文將這一效果解釋為一種結構化的深度預調節方法。
進一步分析顯示,梯度平滑通過平滑跨層的梯度更新,使得各層的學習信號更加一致,減少了層間的干擾,從而加速收斂並改善最終性能。該方法不僅適用於常見的優化器,還能與先進的優化技術(如Muon)協同工作,展現出廣泛的適用性。
總之,深度梯度增強為利用跨深度結構優化提供了有前景的框架,而梯度平滑作為其簡單且廣泛適用的實例,展現出顯著的實用價值。該工作已被ICML 2026接收,論文作者來自多家機構,代碼已在GitHub開源。