大きなステップサイズの勾配降下法が多経路深層線形ネットワークの対称性を回復する
多経路深層線形ネットワークの最近の解析では、勾配流を用いて「勝者総取り」の専門化、すなわち経路対称性が破れ各特徴が単一経路に集中することを予測している。本研究では、大きなステップサイズの離散勾配降下法(GD)が異なる振る舞いを示すことを明らかにする。単一経路解はシャープな最小値である一方、経路間で信号を分散するとシャープネスが低下し、その低下率は経路数と深さの両方に依存して減少することを証明する。その結果、初期訓練では勾配流が予測する深さ駆動の対称性破れが再現されるが、その後、安定限界での振動がこの傾向を覆し、ネットワークを信号が経路間で再分配される再均衡フェーズへと導く。これらの結果は、深さが経路競争をどのように形成するかを明確にし、大きなステップサイズのGDが永続的な単一経路支配ではなく共有表現を好む理由を説明する。
多経路深層線形ネットワークは、機械学習における単純化されたモデルでありながら、深層学習における表現学習と最適化のダイナミクスを研究する上で重要な知見を提供する。従来の見解では、勾配流(連続時間近似)の下では、多経路ネットワークは「勝者総取り」の経路専門化、すなわち各特徴が単一の経路のみを通って伝播し、経路対称性が破れる傾向があるとされてきた。しかし、ICML 2026に提出されたHee-Sung Kimらの研究は、これとは全く異なる現象を明らかにしている。すなわち、離散勾配降下法を大きなステップサイズで使用すると、ネットワークは経路対称性を回復し、単一経路支配ではなく共有表現を好むようになる。
この研究の核心的な発見は、単一経路解(一つの経路のみが活性化)は損失関数のランドスケープにおいてシャープな最小値に対応する一方、信号を複数の経路に分散させることで損失関数のシャープネスが低下するという点である。この低下の度合いは、経路数とネットワークの深さの両方に負の相関がある。すなわち、経路数が多く、深さが大きいほど、シャープネスの低下は顕著になる。この特性により、大きなステップサイズの勾配降下法はより平坦な最小値を好むようになり、単一経路への過度な専門化が抑制される。
さらに、研究は訓練プロセスが二つの段階に分かれることを指摘している。初期段階では、ネットワークは確かに勾配流が予測する深さ駆動の対称性破れを示し、経路が分化し始める。しかし、訓練が「安定限界」(Edge of Stability)領域に達すると、勾配降下法の反復が振動を生じ、この振動が初期の分化傾向を打ち消し、ネットワークを「再均衡」フェーズへと導く。このフェーズでは、信号が経路間で再び均等に分布し、対称性が回復する。
これらの結論は、深層学習における経路競合のメカニズムの理解を深めるだけでなく、実際の訓練に対する重要な示唆を与える。従来は、大規模な深層ネットワークには明示的な正則化や対称性制約が必要と考えられていたが、本研究は単に学習率を調整する(大きなステップサイズを採用する)だけで、よりバランスの取れた表現を誘導できることを示している。これは、より効率的なネットワークアーキテクチャや最適化アルゴリズムの設計に指針を与える可能性がある。
論文の数学的証明と実験的検証は、深さと経路数がシャープネスに与える影響を理論的に明確にし、今後の研究のための分析基盤を提供している。同時に、この研究は離散最適化と連続勾配流との本質的な違いを浮き彫りにしており、実際の応用において勾配流理論の予測に依存する際には注意が必要であることを示唆している。