2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

AdamW訓練動態下威布爾權重尺度參數的演化

該研究基於雙參數威布爾框架分析Transformer權重分佈，揭示了AdamW訓練中權重尺度參數λ的增長、過沖和鬆弛行為。通過AdamW更新的三力分解（對齊力、注入力、衰減力），發現對齊力主導上升階段，貢獻88-94%的力預算。飽和時對齊力與衰減力接近平衡。研究還提出了樣條位移方法，從稀疏檢查點恢復對齊力，準確率達92-94%。峯值λ隨訓練數據相干性變化，表明數據依賴的權重尺度增長成分。

來源arXiv Machine Learning作者: Tiexin Ding

近日，一篇題為《Weibull Weight-Scale Parameter Evolution under AdamW Training Dynamics》的論文在arXiv上發表，深入研究了Transformer在AdamW優化器訓練下權重分佈演化的動力學機制。該研究基於雙參數威布爾框架，揭示了權重尺度參數λ在訓練過程中的增長、過沖和鬆弛現象，併為之提供了理論解釋。

論文作者、來自Tiexin Ding的研究團隊從AdamW更新規則出發，推導出平方權重範數的主導階三力分解模型。這一模型包含三個關鍵分量：對齊力，衡量權重與自適應更新方向之間的相關性；注入力，源自自適應步長的大小；以及衰減力，來自解耦權重衰減。通過在自己的Pythia-70M模型上進行的實驗，研究者發現對齊力是λ上升階段的主導因素，在四個隨機種子下貢獻了88%至94%的絕對力預算，並且對超權重的移除保持穩健。

隨着訓練接近飽和，對齊力與衰減力逐漸達到平衡，這解釋了λ從增長到鬆弛的轉變。這些力的動態直接控制了λ(t)所依賴的平方範數分量。剩餘的均方根到威布爾重建偏移是可測量的，並分解為橋接和積分分量，在密集採樣區域約佔5-6%。

為了將分析擴展到無法獲取優化器矩的實際模型，研究者提出了一種樣條位移方法，該方法能夠從稀疏檢查點恢復對齊力，準確率約為92-94%，幾乎是樸素兩點基線的兩倍。此外，實驗中觀察到λ(t)的峯值隨訓練數據相干性而變化，這表明了權重尺度增長存在數據依賴的成分，作者計劃在後續控制實驗中進行進一步研究。

該研究的代碼和數據已在GitHub上開源，為機器學習社區提供了診斷和理解Transformer訓練動力學的有力工具。