2026-04-15 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Parcae：利用稳定的循环模型，用更少的参数做更多的事

Parcae是一种稳定的循环语言模型，能够达到规模两倍的Transformer的质量——一个770M参数的模型达到1.3B级别的性能。我们首次提出了循环的缩放定律，并证明增加循环次数（而不仅仅是数据）是计算高效提升模型质量的路径。

Parcae是一种创新的循环语言模型架构，旨在用更少的参数实现更高的性能。传统的缩放定律强调通过增加参数或数据规模来提升模型质量，但这往往导致内存占用和推理成本的急剧上升。Parcae通过循环利用同一组层多次处理输入，在不增加参数的情况下增加了计算量，从而在保持较小内存占用的同时提升了模型质量。

循环模型的概念并不新鲜，但之前的尝试往往面临训练不稳定的问题，表现为残差状态爆炸和损失尖峰。Parcae的关键贡献在于它成功解决了这一不稳定性。研究团队将循环过程建模为非线性时变动力系统，并通过控制系统的谱范数来确保收敛。具体来说，他们发现通过约束循环块中特定线性变换的特征值，可以有效地避免发散。

在实验中，Parcae展现了令人印象深刻的结果。一个仅770M参数的Parcae模型在质量上可与1.3B参数的Transformer相媲美，几乎将参数需求减半。此外，Parcae在所有测试规模上均优于之前的循环模型（如RDM）和相同参数量的固定深度Transformer。例如，在350M参数规模下，Parcae的验证困惑度比RDM低6.3%，而直接改造一个强Transformer基线为RDM会导致训练发散，但Parcae仍能稳定训练。

更重要的是，研究团队首次建立了循环的缩放定律。他们发现，在固定的参数和FLOP预算下，增加平均循环次数并相应减少训练数据量，比保持低循环次数和使用更多数据能获得更低的验证损失。通过抛物线拟合，他们确定了每个FLOP水平下的最优平均循环次数和数据预算，并发现这两者遵循一致的幂律关系。这表明，在计算最优的训练策略中，循环次数和数据量应同步增长。

Parcae的诞生为在内存受限环境下（如边缘设备）部署高质量模型提供了新思路。未来，研究团队计划进一步探索参数复用方法，并已公开训练代码和模型，以加速该领域的研究。如果你对Parcae感兴趣，可以联系作者Hayden Prairie。

Parcae的名字来源于罗马神话中的三位命运女神：Nona（前奏块P），她初始化生命的计算之线；Decima（循环块R），她测量线并通过模型深度演化；Morta（尾声块C），她通过剪断线来最终化序列，产生最终输出。研究团队感谢Together AI的合作和计算支持，以及Austin Silveria和Jonah Yi的有益反馈。