權重範數決定“頓悟”時間尺度:因果延遲定律
最新研究通過干預訓練過程中的權重範數,證實了權重範數是神經網絡“頓悟”(延遲泛化)的因果決定因素。研究發現,在自由訓練中,網絡在權重範數達到一個臨界值Wc時發生頓悟,該值變化極小且隨模數呈冪律增長。當固定範數為Wc的倍數ρ時,延遲時間遵循T_grok ∝ exp(αρ),指數α≈7.5,擬合優度R²=0.996。固定範數可使延遲變化約19倍,而學習率僅影響約2倍。添加LayerNorm可消除這種依賴。
近日,一篇發表在arXiv上的論文《The Weight Norm Sets the Grokking Timescale: A Causal Delay Law》(權重範數決定“頓悟”時間尺度:因果延遲定律)解決了關於神經網絡中“頓悟”(grokking)現象的一個關鍵爭議。頓悟是指神經網絡在完美擬合訓練數據後,經過很長一段延遲才突然開始泛化的現象。此前,對於權重範數是否是該延遲的原因存在爭議:一些研究觀察到在過渡時刻存在一個臨界範數,而另一些研究則發現頓悟可以在沒有固定範數的情況下發生。
來自越南的研究人員通過直接在訓練過程中干預權重範數,而不僅僅是觀察它,給出了明確的答案。在自由訓練(使用權重衰減)的情況下,網絡在權重範數達到一個特定值Wc時發生頓悟。這個Wc值在不同隨機種子和學習率下變化極小(變異係數僅1-2%),並且隨着模數(modular base)的增大呈冪律增長。
當研究人員將權重範數固定為Wc的某個倍數ρ並保持不變時,網絡仍然會發生頓悟,但延遲時間T_grok與ρ呈指數關係:T_grok ∝ exp(αρ)。其中指數α大約為7.5,該公式在四個不同的模數下均能完美擬合(R²=0.996)。在掃描的參數範圍內,固定範數可以使延遲時間變化約19倍,而改變學習率僅能帶來約2倍的變化。值得注意的是,將範數固定在高於Wc的值只會減慢頓悟,而不會阻止它發生。
進一步實驗表明,在網絡的最後一層添加LayerNorm可以完全消除權重範數對頓悟延遲的影響,因為LayerNorm解耦了權重尺度與網絡函數。如果沒有LayerNorm,則指數定律仍然成立。研究認為,這種固定範數下的指數延遲與自由訓練下預測的對數延遲形成互補,共同揭示了權重範數在頓悟中的因果作用。
該研究使用四個不同模數(即不同的數學問題)進行實驗,確保了結果的普適性。研究成果不僅解決了關於頓悟機制的爭議,也為理解和控制神經網絡的泛化行為提供了新的視角,尤其是在需要精確控制泛化時機的人工智能應用中具有重要潛在價值。