2026-06-07 16:45 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

大規模言語モデルが小型モデルでは習得できないスキルを身につける理由を研究者らが特定

新しい研究により、大規模言語モデルが小型モデルでは学習できないタスクを習得できる理由が明らかになった。頻繁なタスクが小型モデルの稀なタスクの学習を上書きするためであり、モデルサイズの拡大ではなく、訓練データ内のタスク頻度を増やすことが実用的な解決策となる。

ソースThe Decoder著者: Jonathan Kemper

Anthropic、スタンフォード大学などの研究者らによる新しい研究により、大規模言語モデルが小型モデルでは習得できないスキルを身につけるメカニズムが明らかになりました。研究チームは、モデルを無制限に拡大するよりも、訓練データ内で特定のタスクの出現頻度を高める方が効率的である可能性を示しています。

研究の核心は、小型モデルが稀なタスクを学習できない理由の解明にあります。頻繁に出現するタスクが訓練の各ステップでモデルを強く引きつけ、稀なタスクに関する学習を上書きしてしまうのです。モデルが頻繁なタスクをほぼ習得すると、その引力は弱まり、解放された容量が稀なタスクに割り当てられます。しかし小型モデルはその段階に達することがほとんどなく、「更新と忘却」のループに陥ります。

実験では、パラメータ数400万から40億のOLMoモデルを使用し、最大2100億トークンのデータで訓練しました。訓練データには数字比較とモジュラー加算の2つの人工タスクを混ぜ、出現頻度をバッチあたり約1000回から10バッチに1回まで変化させました。結果、10億パラメータのモデルのみが、出現率0.25%の稀なタスクを学習し、しかもgrokking（一時的な記憶の後に突然原理を理解する現象）を示しました。

研究者らは、記憶は一般化の前提条件であると指摘します。モデルは個々の観測を十分長く保持することで、複数のバッチにまたがるパターンを形成できます。この知見は、モデルサイズを拡大する代わりに、目標タスクの訓練データ内での頻度を増やすことで、小型モデルでも特定のスキルを固定化できるという実用的な代替案を提供します。

この研究は、言語モデルの能力が突然「創発」するかどうかに関する議論に新たな視点をもたらしています。従来のスケーリング則がモデルサイズに焦点を当てるのに対し、本研究はデータの混合比率と学習ダイナミクスの重要性を強調しています。