解鎖大規模門控Delta網絡的特徵學習
本文研究瞭如何將最大更新參數化(μP)擴展到門控Delta網絡,這是一種高效的線性模型架構。通過嚴格分析前向傳播、門控機制和循環狀態動態中的座標大小,作者推導出了縮放規則。實驗表明,在AdamW和SGD優化器下,所提出的配置能夠實現不同模型寬度間的穩定學習率遷移,而標準參數化則無法遷移。
近期,來自加州大學洛杉磯分校的Yifeng Liu和Quanquan Gu在arXiv上發表了題為《Unlocking Feature Learning in Gated Delta Networks at Scale》的研究論文。該研究聚焦於如何將最大更新參數化(Maximal Update Parametrization, μP)應用於門控Delta網絡(Gated Delta Networks),這是一種高效的線性模型架構。隨着大型語言模型(LLMs)訓練的日益普及,計算資源的需求急劇增加,這促使研究者探索更高效的次二次複雜度架構以及理論驅動的超參數調優方法。μP此前已被證明能夠實現標準Transformer的零樣本超參數遷移,即在小模型上優化的超參數可以直接用於大模型,從而節省大量調參成本。然而,該理論尚未被擴展到具有結構化狀態轉換和複雜架構的線性模型,如門控Delta網絡。
在這項工作中,作者通過嚴格分析前向傳播、門控機制以及循環狀態動態中的座標大小估計,推導出了門控Delta網絡的縮放規則。具體而言,他們考慮了網絡中各張量座標的方差和更新幅度,確保了在寬度增加時,特徵學習能夠持續進行,而不會出現梯度爆炸或消失。實驗基於語言模型預訓練任務,使用了AdamW和SGD兩種優化器。結果表明,採用他們所提出的參數化配置,學習率可以在不同模型寬度之間穩定遷移,而標準的參數化方法則無法做到這一點。這驗證了理論分析的正確性和實際效用。
該研究的意義在於,它為更高效的架構設計提供了理論指導,有望降低大型語言模型的訓練成本,並推動次二次複雜度模型在實際應用中的廣泛使用。論文的代碼和數據已公開,供其他研究者復現和進一步探索。這一工作不僅擴展了μP的應用範圍,也為線性遞歸模型的理論研究開闢了新的方向。