梯度平滑:耦合層更新以最佳化最佳化
本文提出深度梯度增強框架,透過沿深度維度變換最佳化器更新來利用層間結構關係。其中梯度平滑方法直接作用於任意基最佳化器(如SGD、Adam、Muon)的塊更新,計算開銷小,在語言模型預訓練、推理後訓練、擴散模型和視覺Transformer中均一致提升最佳化與泛化效能,並促進更有結構的表示演化。
深度神經網路中重複的架構模組(如Transformer)在訓練過程中往往會展現出層間的結構關係。這一現象啟發了研究者提出一種新的最佳化正規化——深度梯度增強(Depth-wise Gradient Augmentation),旨在透過沿深度維度對最佳化器更新進行變換,來耦合各層的更新過程。該框架的核心思想是:不是獨立地更新每一層,而是將各層的塊更新視為一個序列,並對其施加平滑操作。
具體而言,論文研究了梯度平滑(Gradient Smoothing)方法族,並例項化為一種簡單的區域性視窗平滑(Window Smoothing)運算元。該方法直接作用於任意基礎最佳化器(如SGD、Adam、Muon)產生的塊更新,計算開銷極小,且無需修改模型架構或訓練目標,易於整合到現有最佳化流水線中。
實驗部分,研究者在多種架構和訓練場景中評估了梯度平滑的效果,包括語言模型預訓練、大語言模型的推理強化學習後訓練、擴散模型以及視覺Transformer的影像分類任務。結果表明,梯度平滑在所有任務上均一致地提升了最佳化速度和泛化效能,同時促進了深度方向表示演化的結構規則性。論文將這一效果解釋為一種結構化的深度預調節方法。
進一步分析顯示,梯度平滑透過平滑跨層的梯度更新,使得各層的學習訊號更加一致,減少了層間的干擾,從而加速收斂並改善最終效能。該方法不僅適用於常見的最佳化器,還能與先進的最佳化技術(如Muon)協同工作,展現出廣泛的適用性。
總之,深度梯度增強為利用跨深度結構最佳化提供了有前景的框架,而梯度平滑作為其簡單且廣泛適用的例項,展現出顯著的實用價值。該工作已被ICML 2026接收,論文作者來自多家機構,程式碼已在GitHub開源。