AdamW训练动态下威布尔权重尺度参数的演化
该研究基于双参数威布尔框架分析Transformer权重分布,揭示了AdamW训练中权重尺度参数λ的增长、过冲和松弛行为。通过AdamW更新的三力分解(对齐力、注入力、衰减力),发现对齐力主导上升阶段,贡献88-94%的力预算。饱和时对齐力与衰减力接近平衡。研究还提出了样条位移方法,从稀疏检查点恢复对齐力,准确率达92-94%。峰值λ随训练数据相干性变化,表明数据依赖的权重尺度增长成分。
近日,一篇题为《Weibull Weight-Scale Parameter Evolution under AdamW Training Dynamics》的论文在arXiv上发表,深入研究了Transformer在AdamW优化器训练下权重分布演化的动力学机制。该研究基于双参数威布尔框架,揭示了权重尺度参数λ在训练过程中的增长、过冲和松弛现象,并为之提供了理论解释。
论文作者、来自Tiexin Ding的研究团队从AdamW更新规则出发,推导出平方权重范数的主导阶三力分解模型。这一模型包含三个关键分量:对齐力,衡量权重与自适应更新方向之间的相关性;注入力,源自自适应步长的大小;以及衰减力,来自解耦权重衰减。通过在自己的Pythia-70M模型上进行的实验,研究者发现对齐力是λ上升阶段的主导因素,在四个随机种子下贡献了88%至94%的绝对力预算,并且对超权重的移除保持稳健。
随着训练接近饱和,对齐力与衰减力逐渐达到平衡,这解释了λ从增长到松弛的转变。这些力的动态直接控制了λ(t)所依赖的平方范数分量。剩余的均方根到威布尔重建偏移是可测量的,并分解为桥接和积分分量,在密集采样区域约占5-6%。
为了将分析扩展到无法获取优化器矩的实际模型,研究者提出了一种样条位移方法,该方法能够从稀疏检查点恢复对齐力,准确率约为92-94%,几乎是朴素两点基线的两倍。此外,实验中观察到λ(t)的峰值随训练数据相干性而变化,这表明了权重尺度增长存在数据依赖的成分,作者计划在后续控制实验中进行进一步研究。
该研究的代码和数据已在GitHub上开源,为机器学习社区提供了诊断和理解Transformer训练动力学的有力工具。