解鎖大規模門控Delta網路的特徵學習
本文研究瞭如何將最大更新引數化(μP)擴充套件到門控Delta網路,這是一種高效的線性模型架構。透過嚴格分析前向傳播、門控機制和迴圈狀態動態中的座標大小,作者推匯出了縮放規則。實驗表明,在AdamW和SGD最佳化器下,所提出的配置能夠實現不同模型寬度間的穩定學習率遷移,而標準引數化則無法遷移。
近期,來自加州大學洛杉磯分校的Yifeng Liu和Quanquan Gu在arXiv上發表了題為《Unlocking Feature Learning in Gated Delta Networks at Scale》的研究論文。該研究聚焦於如何將最大更新引數化(Maximal Update Parametrization, μP)應用於門控Delta網路(Gated Delta Networks),這是一種高效的線性模型架構。隨著大型語言模型(LLMs)訓練的日益普及,計算資源的需求急劇增加,這促使研究者探索更高效的次二次複雜度架構以及理論驅動的超引數調優方法。μP此前已被證明能夠實現標準Transformer的零樣本超引數遷移,即在小模型上最佳化的超引數可以直接用於大模型,從而節省大量調參成本。然而,該理論尚未被擴充套件到具有結構化狀態轉換和複雜架構的線性模型,如門控Delta網路。
在這項工作中,作者透過嚴格分析前向傳播、門控機制以及迴圈狀態動態中的座標大小估計,推匯出了門控Delta網路的縮放規則。具體而言,他們考慮了網路中各張量座標的方差和更新幅度,確保了在寬度增加時,特徵學習能夠持續進行,而不會出現梯度爆炸或消失。實驗基於語言模型預訓練任務,使用了AdamW和SGD兩種最佳化器。結果表明,採用他們所提出的引數化配置,學習率可以在不同模型寬度之間穩定遷移,而標準的引數化方法則無法做到這一點。這驗證了理論分析的正確性和實際效用。
該研究的意義在於,它為更高效的架構設計提供了理論指導,有望降低大型語言模型的訓練成本,並推動次二次複雜度模型在實際應用中的廣泛使用。論文的程式碼和資料已公開,供其他研究者復現和進一步探索。這一工作不僅擴充套件了μP的應用範圍,也為線性遞迴模型的理論研究開闢了新的方向。