权重范数决定“顿悟”时间尺度:因果延迟定律
最新研究通过干预训练过程中的权重范数,证实了权重范数是神经网络“顿悟”(延迟泛化)的因果决定因素。研究发现,在自由训练中,网络在权重范数达到一个临界值Wc时发生顿悟,该值变化极小且随模数呈幂律增长。当固定范数为Wc的倍数ρ时,延迟时间遵循T_grok ∝ exp(αρ),指数α≈7.5,拟合优度R²=0.996。固定范数可使延迟变化约19倍,而学习率仅影响约2倍。添加LayerNorm可消除这种依赖。
近日,一篇发表在arXiv上的论文《The Weight Norm Sets the Grokking Timescale: A Causal Delay Law》(权重范数决定“顿悟”时间尺度:因果延迟定律)解决了关于神经网络中“顿悟”(grokking)现象的一个关键争议。顿悟是指神经网络在完美拟合训练数据后,经过很长一段延迟才突然开始泛化的现象。此前,对于权重范数是否是该延迟的原因存在争议:一些研究观察到在过渡时刻存在一个临界范数,而另一些研究则发现顿悟可以在没有固定范数的情况下发生。
来自越南的研究人员通过直接在训练过程中干预权重范数,而不仅仅是观察它,给出了明确的答案。在自由训练(使用权重衰减)的情况下,网络在权重范数达到一个特定值Wc时发生顿悟。这个Wc值在不同随机种子和学习率下变化极小(变异系数仅1-2%),并且随着模数(modular base)的增大呈幂律增长。
当研究人员将权重范数固定为Wc的某个倍数ρ并保持不变时,网络仍然会发生顿悟,但延迟时间T_grok与ρ呈指数关系:T_grok ∝ exp(αρ)。其中指数α大约为7.5,该公式在四个不同的模数下均能完美拟合(R²=0.996)。在扫描的参数范围内,固定范数可以使延迟时间变化约19倍,而改变学习率仅能带来约2倍的变化。值得注意的是,将范数固定在高于Wc的值只会减慢顿悟,而不会阻止它发生。
进一步实验表明,在网络的最后一层添加LayerNorm可以完全消除权重范数对顿悟延迟的影响,因为LayerNorm解耦了权重尺度与网络函数。如果没有LayerNorm,则指数定律仍然成立。研究认为,这种固定范数下的指数延迟与自由训练下预测的对数延迟形成互补,共同揭示了权重范数在顿悟中的因果作用。
该研究使用四个不同模数(即不同的数学问题)进行实验,确保了结果的普适性。研究成果不仅解决了关于顿悟机制的争议,也为理解和控制神经网络的泛化行为提供了新的视角,尤其是在需要精确控制泛化时机的人工智能应用中具有重要潜在价值。