Parcae:利用穩定的迴圈模型,用更少的引數做更多的事
Parcae是一種穩定的迴圈語言模型,能夠達到規模兩倍的Transformer的質量——一個770M引數的模型達到1.3B級別的效能。我們首次提出了迴圈的縮放定律,並證明增加迴圈次數(而不僅僅是資料)是計算高效提升模型質量的路徑。
Parcae是一種創新的迴圈語言模型架構,旨在用更少的引數實現更高的效能。傳統的縮放定律強調透過增加引數或資料規模來提升模型質量,但這往往導致記憶體佔用和推理成本的急劇上升。Parcae透過迴圈利用同一組層多次處理輸入,在不增加引數的情況下增加了計算量,從而在保持較小記憶體佔用的同時提升了模型質量。
迴圈模型的概念並不新鮮,但之前的嘗試往往面臨訓練不穩定的問題,表現為殘差狀態爆炸和損失尖峰。Parcae的關鍵貢獻在於它成功解決了這一不穩定性。研究團隊將迴圈過程建模為非線性時變動力系統,並透過控制系統的譜範數來確保收斂。具體來說,他們發現透過約束迴圈塊中特定線性變換的特徵值,可以有效地避免發散。
在實驗中,Parcae展現了令人印象深刻的結果。一個僅770M引數的Parcae模型在質量上可與1.3B引數的Transformer相媲美,幾乎將引數需求減半。此外,Parcae在所有測試規模上均優於之前的迴圈模型(如RDM)和相同引數量的固定深度Transformer。例如,在350M引數規模下,Parcae的驗證困惑度比RDM低6.3%,而直接改造一個強Transformer基線為RDM會導致訓練發散,但Parcae仍能穩定訓練。
更重要的是,研究團隊首次建立了迴圈的縮放定律。他們發現,在固定的引數和FLOP預算下,增加平均迴圈次數並相應減少訓練資料量,比保持低迴圈次數和使用更多資料能獲得更低的驗證損失。透過拋物線擬合,他們確定了每個FLOP水平下的最優平均迴圈次數和資料預算,並發現這兩者遵循一致的冪律關係。這表明,在計算最優的訓練策略中,迴圈次數和資料量應同步增長。
Parcae的誕生為在記憶體受限環境下(如邊緣裝置)部署高質量模型提供了新思路。未來,研究團隊計劃進一步探索引數複用方法,並已公開訓練程式碼和模型,以加速該領域的研究。如果你對Parcae感興趣,可以聯絡作者Hayden Prairie。
Parcae的名字來源於羅馬神話中的三位命運女神:Nona(前奏塊P),她初始化生命的計算之線;Decima(迴圈塊R),她測量線並透過模型深度演化;Morta(尾聲塊C),她透過剪斷線來最終化序列,產生最終輸出。研究團隊感謝Together AI的合作和計算支援,以及Austin Silveria和Jonah Yi的有益反饋。