Parcae:利用穩定的循環模型,用更少的參數做更多的事
Parcae是一種穩定的循環語言模型,能夠達到規模兩倍的Transformer的質量——一個770M參數的模型達到1.3B級別的性能。我們首次提出了循環的縮放定律,並證明增加循環次數(而不僅僅是數據)是計算高效提升模型質量的路徑。
Parcae是一種創新的循環語言模型架構,旨在用更少的參數實現更高的性能。傳統的縮放定律強調通過增加參數或數據規模來提升模型質量,但這往往導致內存佔用和推理成本的急劇上升。Parcae通過循環利用同一組層多次處理輸入,在不增加參數的情況下增加了計算量,從而在保持較小內存佔用的同時提升了模型質量。
循環模型的概念並不新鮮,但之前的嘗試往往面臨訓練不穩定的問題,表現為殘差狀態爆炸和損失尖峯。Parcae的關鍵貢獻在於它成功解決了這一不穩定性。研究團隊將循環過程建模為非線性時變動力系統,並通過控制系統的譜範數來確保收斂。具體來説,他們發現通過約束循環塊中特定線性變換的特徵值,可以有效地避免發散。
在實驗中,Parcae展現了令人印象深刻的結果。一個僅770M參數的Parcae模型在質量上可與1.3B參數的Transformer相媲美,幾乎將參數需求減半。此外,Parcae在所有測試規模上均優於之前的循環模型(如RDM)和相同參數量的固定深度Transformer。例如,在350M參數規模下,Parcae的驗證困惑度比RDM低6.3%,而直接改造一個強Transformer基線為RDM會導致訓練發散,但Parcae仍能穩定訓練。
更重要的是,研究團隊首次建立了循環的縮放定律。他們發現,在固定的參數和FLOP預算下,增加平均循環次數並相應減少訓練數據量,比保持低循環次數和使用更多數據能獲得更低的驗證損失。通過拋物線擬合,他們確定了每個FLOP水平下的最優平均循環次數和數據預算,並發現這兩者遵循一致的冪律關係。這表明,在計算最優的訓練策略中,循環次數和數據量應同步增長。
Parcae的誕生為在內存受限環境下(如邊緣設備)部署高質量模型提供了新思路。未來,研究團隊計劃進一步探索參數複用方法,並已公開訓練代碼和模型,以加速該領域的研究。如果你對Parcae感興趣,可以聯繫作者Hayden Prairie。
Parcae的名字來源於羅馬神話中的三位命運女神:Nona(前奏塊P),她初始化生命的計算之線;Decima(循環塊R),她測量線並通過模型深度演化;Morta(尾聲塊C),她通過剪斷線來最終化序列,產生最終輸出。研究團隊感謝Together AI的合作和計算支持,以及Austin Silveria和Jonah Yi的有益反饋。