2026-06-19站内改写1 分钟阅读更新: 2026-06-19

AdamW训练动态下威布尔权重尺度参数的演化

该研究基于双参数威布尔框架分析Transformer权重分布，揭示了AdamW训练中权重尺度参数λ的增长、过冲和松弛行为。通过AdamW更新的三力分解（对齐力、注入力、衰减力），发现对齐力主导上升阶段，贡献88-94%的力预算。饱和时对齐力与衰减力接近平衡。研究还提出了样条位移方法，从稀疏检查点恢复对齐力，准确率达92-94%。峰值λ随训练数据相干性变化，表明数据依赖的权重尺度增长成分。

来源arXiv Machine Learning作者: Tiexin Ding

近日，一篇题为《Weibull Weight-Scale Parameter Evolution under AdamW Training Dynamics》的论文在arXiv上发表，深入研究了Transformer在AdamW优化器训练下权重分布演化的动力学机制。该研究基于双参数威布尔框架，揭示了权重尺度参数λ在训练过程中的增长、过冲和松弛现象，并为之提供了理论解释。

论文作者、来自Tiexin Ding的研究团队从AdamW更新规则出发，推导出平方权重范数的主导阶三力分解模型。这一模型包含三个关键分量：对齐力，衡量权重与自适应更新方向之间的相关性；注入力，源自自适应步长的大小；以及衰减力，来自解耦权重衰减。通过在自己的Pythia-70M模型上进行的实验，研究者发现对齐力是λ上升阶段的主导因素，在四个随机种子下贡献了88%至94%的绝对力预算，并且对超权重的移除保持稳健。

随着训练接近饱和，对齐力与衰减力逐渐达到平衡，这解释了λ从增长到松弛的转变。这些力的动态直接控制了λ(t)所依赖的平方范数分量。剩余的均方根到威布尔重建偏移是可测量的，并分解为桥接和积分分量，在密集采样区域约占5-6%。

为了将分析扩展到无法获取优化器矩的实际模型，研究者提出了一种样条位移方法，该方法能够从稀疏检查点恢复对齐力，准确率约为92-94%，几乎是朴素两点基线的两倍。此外，实验中观察到λ(t)的峰值随训练数据相干性而变化，这表明了权重尺度增长存在数据依赖的成分，作者计划在后续控制实验中进行进一步研究。

该研究的代码和数据已在GitHub上开源，为机器学习社区提供了诊断和理解Transformer训练动力学的有力工具。