2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:05 UTC+8

梯度平滑：耦合層更新以優化優化

本文提出深度梯度增強框架，通過沿深度維度變換優化器更新來利用層間結構關係。其中梯度平滑方法直接作用於任意基優化器（如SGD、Adam、Muon）的塊更新，計算開銷小，在語言模型預訓練、推理後訓練、擴散模型和視覺Transformer中均一致提升優化與泛化性能，並促進更有結構的表示演化。

來源arXiv Machine Learning作者: Haoming Meng, Anton Sugolov, Vardan Papyan

深度神經網絡中重複的架構模塊（如Transformer）在訓練過程中往往會展現出層間的結構關係。這一現象啓發了研究者提出一種新的優化範式——深度梯度增強（Depth-wise Gradient Augmentation），旨在通過沿深度維度對優化器更新進行變換，來耦合各層的更新過程。該框架的核心思想是：不是獨立地更新每一層，而是將各層的塊更新視為一個序列，並對其施加平滑操作。

具體而言，論文研究了梯度平滑（Gradient Smoothing）方法族，並實例化為一種簡單的局部窗口平滑（Window Smoothing）算子。該方法直接作用於任意基礎優化器（如SGD、Adam、Muon）產生的塊更新，計算開銷極小，且無需修改模型架構或訓練目標，易於集成到現有優化流水線中。

實驗部分，研究者在多種架構和訓練場景中評估了梯度平滑的效果，包括語言模型預訓練、大語言模型的推理強化學習後訓練、擴散模型以及視覺Transformer的圖像分類任務。結果表明，梯度平滑在所有任務上均一致地提升了優化速度和泛化性能，同時促進了深度方向表示演化的結構規則性。論文將這一效果解釋為一種結構化的深度預調節方法。

進一步分析顯示，梯度平滑通過平滑跨層的梯度更新，使得各層的學習信號更加一致，減少了層間的干擾，從而加速收斂並改善最終性能。該方法不僅適用於常見的優化器，還能與先進的優化技術（如Muon）協同工作，展現出廣泛的適用性。

總之，深度梯度增強為利用跨深度結構優化提供了有前景的框架，而梯度平滑作為其簡單且廣泛適用的實例，展現出顯著的實用價值。該工作已被ICML 2026接收，論文作者來自多家機構，代碼已在GitHub開源。