Parcae: 安定したループ型モデルでより少ないパラメータで多くの成果を
Parcaeは安定したループ型言語モデルで、2倍のサイズのTransformerと同等の品質を達成——770Mモデルが1.3Bレベルの性能を発揮。ループに関する初のスケーリング則を導入し、データだけでなく再帰の増加が計算効率の良い性能向上経路であることを示す。
Parcaeは、少ないパラメータで高い性能を実現する革新的なループ型言語モデルです。従来のスケーリング則は、パラメータやデータの増加による性能向上を重視していましたが、これによりメモリ使用量と推論コストが増大します。Parcaeは同じ層を複数回適用することで、パラメータを増やさずに計算量を増やし、メモリフットプリントを抑えつつ品質を向上させます。
ループ型モデルの概念は以前からありましたが、訓練の不安定性(残差状態の爆発や損失のスパイク)が課題でした。Parcaeの主要な貢献は、この不安定性を解決した点にあります。研究チームはループ過程を非線形時変力学系としてモデル化し、システムのスペクトルノルムを制御することで収束を保証しました。具体的には、ループブロック内の特定の線形変換の固有値を制約することで発散を防ぎます。
実験結果は印象的です。770MパラメータのParcaeモデルは、1.3BパラメータのTransformerと同等の品質を達成し、実質的にパラメータを半減しました。また、Parcaeはすべてのスケールで従来のループモデル(RDMなど)や同じパラメータ数の固定深さTransformerを上回りました。例えば、350MスケールではParcaeの検証パープレキシティがRDMより6.3%低く、強力なTransformerベースラインをRDMに改造すると訓練が発散する場合でも、Parcaeは安定して訓練できました。
さらに、ループに関する初のスケーリング則を確立しました。固定パラメータ数とFLOP予算の下で、平均ループ回数を増やし、それに比例して訓練データを減らす方が、ループ回数が少なくデータが多い場合よりも低い検証損失が得られることが分かりました。放物線フィッティングにより、各FLOPレベルでの最適な平均ループ回数とデータ予算を抽出し、これらが一貫したべき乗則に従うことを発見しました。これは、計算最適な訓練戦略ではループ回数とデータ量を同時に増やす必要があることを示しています。
Parcaeは、メモリ制約のある環境(エッジデバイスなど)での高品質モデル展開に新たな道を開きます。研究チームは今後もパラメータ再利用手法の探求を続け、トレーニングコードとモデルを公開して研究を加速させる予定です。質問や共同研究の希望があれば、著者のHayden Prairieに連絡してください。
Parcaeという名前は、ローマ神話の三姉妹の運命にちなんでいます:Nona(前奏ブロックP)は生命の計算の糸を開始し、Decima(再帰ブロックR)は糸を測りモデル深度を通じて進化し、Morta(終結ブロックC)は糸を切って最終出力を生成します。研究チームはTogether AIの協力と計算リソースの提供に感謝し、Austin SilveriaとJonah Yiの有益なフィードバックに謝意を表します。