AI News HubLIVE
站内改写2 分钟阅读

Parcae:利用稳定的循环模型,用更少的参数做更多的事

Parcae是一种稳定的循环语言模型,能够达到规模两倍的Transformer的质量——一个770M参数的模型达到1.3B级别的性能。我们首次提出了循环的缩放定律,并证明增加循环次数(而不仅仅是数据)是计算高效提升模型质量的路径。

Parcae是一种创新的循环语言模型架构,旨在用更少的参数实现更高的性能。传统的缩放定律强调通过增加参数或数据规模来提升模型质量,但这往往导致内存占用和推理成本的急剧上升。Parcae通过循环利用同一组层多次处理输入,在不增加参数的情况下增加了计算量,从而在保持较小内存占用的同时提升了模型质量。

循环模型的概念并不新鲜,但之前的尝试往往面临训练不稳定的问题,表现为残差状态爆炸和损失尖峰。Parcae的关键贡献在于它成功解决了这一不稳定性。研究团队将循环过程建模为非线性时变动力系统,并通过控制系统的谱范数来确保收敛。具体来说,他们发现通过约束循环块中特定线性变换的特征值,可以有效地避免发散。

在实验中,Parcae展现了令人印象深刻的结果。一个仅770M参数的Parcae模型在质量上可与1.3B参数的Transformer相媲美,几乎将参数需求减半。此外,Parcae在所有测试规模上均优于之前的循环模型(如RDM)和相同参数量的固定深度Transformer。例如,在350M参数规模下,Parcae的验证困惑度比RDM低6.3%,而直接改造一个强Transformer基线为RDM会导致训练发散,但Parcae仍能稳定训练。

更重要的是,研究团队首次建立了循环的缩放定律。他们发现,在固定的参数和FLOP预算下,增加平均循环次数并相应减少训练数据量,比保持低循环次数和使用更多数据能获得更低的验证损失。通过抛物线拟合,他们确定了每个FLOP水平下的最优平均循环次数和数据预算,并发现这两者遵循一致的幂律关系。这表明,在计算最优的训练策略中,循环次数和数据量应同步增长。

Parcae的诞生为在内存受限环境下(如边缘设备)部署高质量模型提供了新思路。未来,研究团队计划进一步探索参数复用方法,并已公开训练代码和模型,以加速该领域的研究。如果你对Parcae感兴趣,可以联系作者Hayden Prairie。

Parcae的名字来源于罗马神话中的三位命运女神:Nona(前奏块P),她初始化生命的计算之线;Decima(循环块R),她测量线并通过模型深度演化;Morta(尾声块C),她通过剪断线来最终化序列,产生最终输出。研究团队感谢Together AI的合作和计算支持,以及Austin Silveria和Jonah Yi的有益反馈。