AI News HubLIVE
サイト内リライト2 分で読了

勾配平滑化:層更新の結合による最適化の改善

本論文では、深さ方向にオプティマイザの更新を変換することで層間の構造的関係を活用する「深さ方向勾配増強」フレームワークを提案する。単純な窓平滑化演算子を用いた勾配平滑化は、任意のベースオプティマイザ(SGD、Adam、Muonなど)と互換性があり、言語モデルの事前学習、推論のRL後学習、拡散モデル、Vision Transformerにおいて一貫して最適化と汎化性能を向上させる。また、深さ方向の前処理として解釈される構造的な表現進化を促進する。

ソースarXiv Machine Learning著者: Haoming Meng, Anton Sugolov, Vardan Papyan

深層ニューラルネットワーク、特にTransformerのように繰り返し構造を持つアーキテクチャでは、訓練中に層間に構造的な関係が現れることが観察されています。この観察に基づき、本論文では「深さ方向勾配増強(Depth-wise Gradient Augmentation)」という新しい最適化パラダイムを導入します。これは、各層に適用される更新を、深さ方向に沿ってブロック単位のオプティマイザ更新を変換することで得るというものです。

このフレームワークの下で、著者らは「勾配平滑化(Gradient Smoothing)」と呼ばれる深さ方向の平滑化手法群を研究し、単純な局所窓平滑化演算子(Window Smoothing)による具体化を行いました。この手法は、任意のベースオプティマイザ(SGD、Adam、Muonなど)が生成するブロック更新に直接作用し、計算オーバーヘッドは最小限であり、既存の最適化パイプラインと互換性があります。

評価は多様なアーキテクチャと訓練設定で行われました。言語モデルの事前学習、大規模言語モデルの推論に関する強化学習後訓練、拡散モデリング、Vision Transformerを用いた画像分類などです。これらの設定において、勾配平滑化はモデルアーキテクチャや訓練目的を変更することなく、一貫して最適化と汎化性能を改善しました。さらに、この手法が深さ方向の表現進化をより構造化することが示され、これは構造化された深さ方向の前処理手法としての解釈と一致します。

詳細な分析により、勾配平滑化は層をまたぐ勾配更新を平滑化することで、各層の学習信号をより一貫させ、層間の干渉を低減し、収束を加速し最終性能を向上させることが明らかになりました。この方法は一般的なオプティマイザだけでなく、Muonなどの先進的な最適化技術とも協調して動作し、幅広い適用可能性を示しています。

これらの結果は、深さ方向勾配増強が最適化におけるクロス深度構造を活用する有望なフレームワークであり、勾配平滑化がそのシンプルで広く適用可能な具体化であることを示しています。本論文はICML 2026に採録されており、著者らは複数の機関に所属し、コードはGitHubで公開されています。