噪聲驅動逃離亞穩態階段解釋深度神經網絡中的“悟道”現象
該研究通過線性深度神經網絡模型,揭示了“悟道”(grokking)現象與L2正則化引起的一階相變中的滯後效應有關。當模型陷入低準確率的亞穩態時,僅當隨機梯度下降(SGD)噪聲提供足夠能量跨越勢壘時,才會逃離並實現泛化,逃離時間遵循阿倫尼烏斯標度。研究還表明亞穩態數量等於可學習特徵數量,為開發更高效的學習方案提供了新途徑。
近日,一篇發表在arXiv上的論文《噪聲驅動逃離亞穩態階段解釋深度神經網絡中的“悟道”現象》為理解深度學習中的“悟道”(grokking)現象提供了新的理論框架。該現象表現為網絡在長時間過擬合後突然出現泛化能力,其機制長期未明。研究團隊通過線性深度神經網絡模型,將悟道與L2正則化強度變化引起的一階相變中的滯後效應聯繫起來。
論文指出,深度神經網絡在L2正則化強度變化時表現出類似一級相變的行為,每個相變對應一個新可學習特徵的湧現。當正則化強度低於臨界值時,所有特徵原則上可學習,但系統會陷入由能量勢壘分隔的亞穩態,阻礙收斂。研究者發現,通過刻意利用L2正則化製造亞穩態,模型在低準確率狀態下停滯,只有隨機梯度下降(SGD)的噪聲提供足夠能量才能驅動其跨越勢壘,逃脱時間遵循阿倫尼烏斯標度。他們成功在逃逸時間跨越兩個數量級的情況下重現了類似悟道的延遲收斂現象,並通過稀疏子採樣復現了典型的悟道曲線——測試誤差最終接近訓練誤差。
具體來説,研究者通過理論分析和數值模擬表明,當模型處於低準確率的亞穩態時,其逃逸時間與能量勢壘的高度呈指數關係,符合阿倫尼烏斯定律。這一發現將悟道現象與統計物理中的經典理論聯繫起來,為深度學習領域引入了一種全新的視角。此外,論文還指出,亞穩態的數量等於可學習特徵的數量,即數據協方差矩陣的每一個奇異值對應一個亞穩態,這意味着任務的複雜度越高,滯後潛力自然越大。團隊通過稀疏子採樣實驗成功復現了典型的悟道曲線,即測試誤差在長時間過擬合後突然下降至與訓練誤差相近的水平。進一步地,作者提供了初步證據表明這一機制在非線性深度神經網絡中同樣成立,從而拓展了該理論的適用範圍。
研究進一步表明,亞穩態的數量等於可學習特徵的數量,即數據協方差矩陣的每一個奇異值對應一個亞穩態,且滯後潛力隨任務複雜度自然增長。團隊還提供了證據,表明該機制很可能同樣適用於一般非線性深度神經網絡。這一發現不僅解釋了悟道的起源,還為設計更高效的學習算法提供了新思路,例如通過調控噪聲或正則化來加速逃離亞穩態。
這項研究由Ibrahim Talha Ersoy等人完成,已被HiLD 2026研討會接收。論文詳細討論了線性深度神經網絡中的相變行為,並提供了數值實驗驗證。該工作對於理解深度學習中的泛化動力學和設計更高效的訓練策略具有重要意義。