2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:05 UTC+8

梯度平滑：耦合層更新以最佳化最佳化

本文提出深度梯度增強框架，透過沿深度維度變換最佳化器更新來利用層間結構關係。其中梯度平滑方法直接作用於任意基最佳化器（如SGD、Adam、Muon）的塊更新，計算開銷小，在語言模型預訓練、推理後訓練、擴散模型和視覺Transformer中均一致提升最佳化與泛化效能，並促進更有結構的表示演化。

來源arXiv Machine Learning作者: Haoming Meng, Anton Sugolov, Vardan Papyan

深度神經網路中重複的架構模組（如Transformer）在訓練過程中往往會展現出層間的結構關係。這一現象啟發了研究者提出一種新的最佳化正規化——深度梯度增強（Depth-wise Gradient Augmentation），旨在透過沿深度維度對最佳化器更新進行變換，來耦合各層的更新過程。該框架的核心思想是：不是獨立地更新每一層，而是將各層的塊更新視為一個序列，並對其施加平滑操作。

具體而言，論文研究了梯度平滑（Gradient Smoothing）方法族，並例項化為一種簡單的區域性視窗平滑（Window Smoothing）運算元。該方法直接作用於任意基礎最佳化器（如SGD、Adam、Muon）產生的塊更新，計算開銷極小，且無需修改模型架構或訓練目標，易於整合到現有最佳化流水線中。

實驗部分，研究者在多種架構和訓練場景中評估了梯度平滑的效果，包括語言模型預訓練、大語言模型的推理強化學習後訓練、擴散模型以及視覺Transformer的影像分類任務。結果表明，梯度平滑在所有任務上均一致地提升了最佳化速度和泛化效能，同時促進了深度方向表示演化的結構規則性。論文將這一效果解釋為一種結構化的深度預調節方法。

進一步分析顯示，梯度平滑透過平滑跨層的梯度更新，使得各層的學習訊號更加一致，減少了層間的干擾，從而加速收斂並改善最終效能。該方法不僅適用於常見的最佳化器，還能與先進的最佳化技術（如Muon）協同工作，展現出廣泛的適用性。

總之，深度梯度增強為利用跨深度結構最佳化提供了有前景的框架，而梯度平滑作為其簡單且廣泛適用的例項，展現出顯著的實用價值。該工作已被ICML 2026接收，論文作者來自多家機構，程式碼已在GitHub開源。