2026-04-15 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Parcae：利用穩定的循環模型，用更少的參數做更多的事

Parcae是一種穩定的循環語言模型，能夠達到規模兩倍的Transformer的質量——一個770M參數的模型達到1.3B級別的性能。我們首次提出了循環的縮放定律，並證明增加循環次數（而不僅僅是數據）是計算高效提升模型質量的路徑。

Parcae是一種創新的循環語言模型架構，旨在用更少的參數實現更高的性能。傳統的縮放定律強調通過增加參數或數據規模來提升模型質量，但這往往導致內存佔用和推理成本的急劇上升。Parcae通過循環利用同一組層多次處理輸入，在不增加參數的情況下增加了計算量，從而在保持較小內存佔用的同時提升了模型質量。

循環模型的概念並不新鮮，但之前的嘗試往往面臨訓練不穩定的問題，表現為殘差狀態爆炸和損失尖峯。Parcae的關鍵貢獻在於它成功解決了這一不穩定性。研究團隊將循環過程建模為非線性時變動力系統，並通過控制系統的譜範數來確保收斂。具體來説，他們發現通過約束循環塊中特定線性變換的特徵值，可以有效地避免發散。

在實驗中，Parcae展現了令人印象深刻的結果。一個僅770M參數的Parcae模型在質量上可與1.3B參數的Transformer相媲美，幾乎將參數需求減半。此外，Parcae在所有測試規模上均優於之前的循環模型（如RDM）和相同參數量的固定深度Transformer。例如，在350M參數規模下，Parcae的驗證困惑度比RDM低6.3%，而直接改造一個強Transformer基線為RDM會導致訓練發散，但Parcae仍能穩定訓練。

更重要的是，研究團隊首次建立了循環的縮放定律。他們發現，在固定的參數和FLOP預算下，增加平均循環次數並相應減少訓練數據量，比保持低循環次數和使用更多數據能獲得更低的驗證損失。通過拋物線擬合，他們確定了每個FLOP水平下的最優平均循環次數和數據預算，並發現這兩者遵循一致的冪律關係。這表明，在計算最優的訓練策略中，循環次數和數據量應同步增長。

Parcae的誕生為在內存受限環境下（如邊緣設備）部署高質量模型提供了新思路。未來，研究團隊計劃進一步探索參數複用方法，並已公開訓練代碼和模型，以加速該領域的研究。如果你對Parcae感興趣，可以聯繫作者Hayden Prairie。

Parcae的名字來源於羅馬神話中的三位命運女神：Nona（前奏塊P），她初始化生命的計算之線；Decima（循環塊R），她測量線並通過模型深度演化；Morta（尾聲塊C），她通過剪斷線來最終化序列，產生最終輸出。研究團隊感謝Together AI的合作和計算支持，以及Austin Silveria和Jonah Yi的有益反饋。