層をスキップするかループするか?大規模言語モデルにおけるレイヤープログラムの学習
大規模言語モデル(LLM)の層をスキップまたはループさせ、入力ごとにカスタマイズされたプログラムを動的に実行する手法PoLarが提案された。数学的推論ベンチマークにおいて、より少ない層で同等以上の精度を達成し、固定深さの推論が能力を十分に引き出せていないことを示唆する。
大規模言語モデル(LLM)は通常、すべての層を固定順序で非再帰的に実行して推論を行います。しかし、プリンストン大学とGoogle Researchなどの研究チームは、事前学習済みの層をモジュールとして扱い、各入力に対して層をスキップまたはループさせる動的プログラム「プログラム・オブ・レイヤーズ(PoLar)」を提案しました。この手法は訓練不要で、ほとんどの入力に対してより短いプログラムで同等以上の精度を達成し、元のモデルが誤った予測も少ない層で修正できることを示しています。これは推論に標準フォワードパス以上の多様な潜在計算経路が存在することを示唆します。実際の応用に向けて、チームは軽量なPoLar予測ネットワークを設計し、各入力に対して層のスキップや反復を動的に決定する実行プログラムを学習させました。数学的推論ベンチマークでの実験では、PoLarは標準推論や従来の動的深さ手法を一貫して上回り、しかも実行層数が少ない場合が多く、その利点は分布外評価でも持続しました。この結果は、固定深さの実行がLLMの潜在的な推論能力のごく一部しか活用していないことを示唆しています。コードは公開されています。さらに、本論文はICML 2026に採択され、arXiv:2507.07996を大幅に拡張したものです。PoLarの核心は、追加の訓練を必要とせず、軽量な予測ネットワークのみで動的な層選択を実現する点にあり、効率的な推論とモデル圧縮の新たな可能性を開きます。研究者らは、異なる入力に対して最適なプログラム構造が大きく異なり、層のスキップやループを適応的に組み合わせることで、LLMがタスクの複雑さに応じて計算資源を柔軟に割り当てられることを発見しました。今後、PoLarはより大規模なモデルや多様なタスクに適用され、LLMの潜在能力をさらに引き出すことが期待されます。