トランスフォーマーが「不可能」言語を学習するとき、何を学ぶのか?
本研究では、トランスフォーマー言語モデルが「不可能」言語を学習する際、文法感受性は徐々に低下するが、生成能力に顕著な欠陥が見られることを発見。この生成欠陥が人間による習得不可能性を説明する可能性を示唆。
近年、トランスフォーマー言語モデルは人間の自然言語に対して「不可能」言語よりも偏りがあることが示唆されています。しかし、従来の研究はサンプル効率やテストセットの困惑度に基づいており、言語能力の直接評価は行われていませんでした。Ram Janarthanらによる本研究では、理論的に動機付けられた2つの仮説を評価します:文法感受性の欠如または生成能力の欠陥による言語の習得不可能性です。本論文は2026年6月29日にarXivに投稿され、CoNLL 2026で最優秀論文賞を受賞しました。
研究者らは、GPT-2スタイルのモデルを英語の摂動版(「不可能」変種)で訓練しました。これらの変種は、普遍文法に違反するなどの言語規則を破ることで設計されています。BLiMP最小対テストを用いて文法性に対する感受性を測定した結果、モデルの性能は情報の局所性に媒介されながら徐々に低下することがわかりました。つまり、モデルは文法規則を完全に失うのではなく、言語構造の変化に応じて段階的に感受性を失っていくのです。この発見は、モデルが「不可能」言語に対して完全に鈍感であるという以前の見解に挑戦するものです。
対照的に、生成タスクでは顕著な失敗が見られました。長い文を生成する際、モデルが生成する高品質な文の数は大幅に減少し、文が長くなるほど品質は低下しました。この生成能力の深刻な欠陥は、「不可能」言語が人間に習得されにくい理由が、文法の理解不能性ではなく、効果的な生成と伝達の困難さにあることを示唆しています。研究チームは、生成欠陥と伝達失敗が、言語モデルの行動と「不可能」言語の非実在を結びつけるもっともらしいリンキング仮説であると結論付けました。
この研究は、言語モデルの学習メカニズムへの理解を深めるだけでなく、言語学における「不可能」言語問題に計算論的証拠を提供します。CoNLL 2026最優秀論文賞の受賞は、計算言語学におけるその重要性を裏付けています。今後の研究では、異なるモデルアーキテクチャや訓練データがこの現象に与える影響をさらに探求することが期待されます。