発達的アプローチが明らかにするニューラル言語モデルの統計的学習:Transformerは最も抽象的な統計パターンから一般化する
本研究では、発達的アプローチを用いてニューラル言語モデル(NLM)の統計的学習と心的表象を調査する。一連の生成型Transformerモデルを合成文法で訓練し、訓練の複数段階でモデルの状態を保存する。内部表現の変化を分析することで、NLMは学習の初期に最も抽象的な大域的統計知識を獲得し、その後比較的局所的な統計的依存関係を獲得することがわかった。この学習経路は初期に多くの過剰一般化を含み、後期に徐々に制約される。この観察に基づき、NLMの統計的学習と言語認知を説明する新しい枠組みを提案する。
ニューラル言語モデル(NLM)は、GPTシリーズなど自然言語処理の分野で大きな成功を収めているが、その内部動作はまだ謎に包まれている。最近、arXivに投稿された論文(番号2606.27460)は、斬新な「発達的アプローチ」を用いてNLMの統計的学習メカニズムを探究している。このアプローチは発達心理学の考え方を借用し、モデルの訓練過程を異なる段階で追跡することで、Transformerが言語の統計パターンをどのように段階的に習得するかを明らかにしている。
研究者らは、合成文法を用いて訓練された一連の生成型Transformerモデルを用意した。合成文法は制御された言語環境であり、統計的規則性を正確に定義できるため、モデルが何を学習したかを分析しやすい。訓練中、彼らはモデルの内部状態(パラメータと表現)を定期的に保存した。これらの状態の変化を分析した結果、興味深い学習順序が明らかになった。訓練の初期段階では、モデルは最も抽象的な大域的統計知識、例えば文構造の最も広範なパターンを急速に獲得する。その後、モデルは徐々に、単語間の近接関係など、より具体的な局所的統計的依存関係を学習していく。
この発見は、従来の「モデルは単純なものから複雑なものへと段階的に学習する」という見方に挑戦するものである。実際には、Transformerモデルは最初から過剰一般化する傾向があり、言語規則に対して過度に広範な仮定を立てる。例えば、初期には、モデルはすべての文がある非常に一般的なテンプレートに従っていると仮定し、細部を無視するかもしれない。訓練が進むにつれて、これらの過剰一般化は徐々に修正され、モデルはより精緻になり、局所的特殊性を扱えるようになる。
論文の著者らは、この学習経路が人間の幼児の言語習得過程に類似していると指摘する。幼児も初期に多くの文法誤りを犯し、その後徐々に正しい制約を学んでいく。この観察に基づき、彼らはNLMの統計的学習と言語認知を説明する新しい枠組みを提案している。この枠組みは、抽象的な大域的規則の迅速な抽出と、局所的依存関係の精緻化・制約という二つの重要な段階を強調する。この研究は、NLMの内部機構の理解を深めるだけでなく、モデル訓練戦略の改善にも示唆を与える可能性がある。
本論文は、Interdisciplinary Advances in Statistical Learning(学際的統計学習の進歩)会議の口頭発表として採択され、その学際的な影響力を示している。著者はWang Bojunら3名で、論文はarXivで公開されている。