2026-04-15 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Parcae：利用穩定的迴圈模型，用更少的引數做更多的事

Parcae是一種穩定的迴圈語言模型，能夠達到規模兩倍的Transformer的質量——一個770M引數的模型達到1.3B級別的效能。我們首次提出了迴圈的縮放定律，並證明增加迴圈次數（而不僅僅是資料）是計算高效提升模型質量的路徑。

Parcae是一種創新的迴圈語言模型架構，旨在用更少的引數實現更高的效能。傳統的縮放定律強調透過增加引數或資料規模來提升模型質量，但這往往導致記憶體佔用和推理成本的急劇上升。Parcae透過迴圈利用同一組層多次處理輸入，在不增加引數的情況下增加了計算量，從而在保持較小記憶體佔用的同時提升了模型質量。

迴圈模型的概念並不新鮮，但之前的嘗試往往面臨訓練不穩定的問題，表現為殘差狀態爆炸和損失尖峰。Parcae的關鍵貢獻在於它成功解決了這一不穩定性。研究團隊將迴圈過程建模為非線性時變動力系統，並透過控制系統的譜範數來確保收斂。具體來說，他們發現透過約束迴圈塊中特定線性變換的特徵值，可以有效地避免發散。

在實驗中，Parcae展現了令人印象深刻的結果。一個僅770M引數的Parcae模型在質量上可與1.3B引數的Transformer相媲美，幾乎將引數需求減半。此外，Parcae在所有測試規模上均優於之前的迴圈模型（如RDM）和相同引數量的固定深度Transformer。例如，在350M引數規模下，Parcae的驗證困惑度比RDM低6.3%，而直接改造一個強Transformer基線為RDM會導致訓練發散，但Parcae仍能穩定訓練。

更重要的是，研究團隊首次建立了迴圈的縮放定律。他們發現，在固定的引數和FLOP預算下，增加平均迴圈次數並相應減少訓練資料量，比保持低迴圈次數和使用更多資料能獲得更低的驗證損失。透過拋物線擬合，他們確定了每個FLOP水平下的最優平均迴圈次數和資料預算，並發現這兩者遵循一致的冪律關係。這表明，在計算最優的訓練策略中，迴圈次數和資料量應同步增長。

Parcae的誕生為在記憶體受限環境下（如邊緣裝置）部署高質量模型提供了新思路。未來，研究團隊計劃進一步探索引數複用方法，並已公開訓練程式碼和模型，以加速該領域的研究。如果你對Parcae感興趣，可以聯絡作者Hayden Prairie。

Parcae的名字來源於羅馬神話中的三位命運女神：Nona（前奏塊P），她初始化生命的計算之線；Decima（迴圈塊R），她測量線並透過模型深度演化；Morta（尾聲塊C），她透過剪斷線來最終化序列，產生最終輸出。研究團隊感謝Together AI的合作和計算支援，以及Austin Silveria和Jonah Yi的有益反饋。