言語モデルの失敗:コミット型および持続型推論障害のトークンレベル署名
本研究では、トークンレベルの不確実性信号を用いて、言語モデルの推論失敗を2つの異なるプロセス(コミット型失敗と持続的不確実性)に分類。23のモデル・データセット構成で検証し、20例で予測が成立。自己整合性への応用可能性も示す。
arXivプレプリント2606.06635号の論文は、2026年6月4日に提出され、著者はTanvi Thoriaら4名です。本研究は、トークンレベルの不確実性信号を用いて、大規模言語モデル(LLM)の推論における失敗パターンを識別・分類する新しいフレームワークを提案しています。研究チームは、LLMの推論失敗が単一の現象ではなく、コミット型失敗と持続的不確実性という2つの異なるプロセスで発生することを発見しました。
コミット型失敗とは、モデルが推論の初期段階で誤った推論経路に固着してしまう現象です。その中心的な診断指標は「コミットメントポイント」であり、このポイントを超えると、追加のトークンを考慮することが失敗検出の妨げとなります。つまり、このタイプの失敗に対しては、コミットメントポイント以前に介入することが最適な検出戦略となります。
一方、持続的不確実性は、モデルが推論プロセス全体を通じて高い不確実性を維持し、その不確実性が蓄積されていく現象です。この場合、失敗と成功を最もよく区別するには、完全な推論トレースが必要です。モデルは各ステップで自信のなさを示し、最終出力を観察して初めて信頼性の高い判断が可能となります。
このフレームワークは、23種類のモデルとデータセットの組み合わせで検証され、多様なLLMアーキテクチャと推論タスクをカバーしています。反証可能な予測は23例中20例で成立し、偶然のレベルを大幅に上回り、この分類手法の有効性と汎化能力が実証されました。さらに、これらの失敗モードはモデルやデータセットを超えて一貫した行動パターンを示し、モデルの推論メカニズムに固有の特性である可能性が示唆されました。
また、本研究はこのフレームワークが自己整合性(self-consistency)手法に直接的な影響を与えることを示しています。自己整合性は、複数回のサンプリングで最も一貫した回答を選択することでLLMの信頼性を高める一般的な手法です。本研究は、コミット型失敗の場合、モデルが既に誤った経路に固着しているため、複数回のサンプリングでも同じ誤答が得られることが多く、自己整合性が効果的でない可能性があることを明らかにしました。一方、持続的不確実性の場合、不確実性信号が自己整合性を補完し、より信頼性の高い出力の選択に役立ちます。このフレームワークにより、不確実性信号が自己整合性を補完できる場合と、自己整合性を選択的にスキップして計算リソースを節約できる場合を識別できるようになります。
これらの結果は、LLMの推論失敗がいつ検出可能になるかを理解し、それに応じて検出戦略を適応させるための基盤を提供します。将来的には、この手法がLLMの推論監視システムに組み込まれ、開発者やユーザーが信頼性の低い推論出力を特定し、AIシステムの安全性と信頼性を向上させるのに役立つことが期待されます。本論文は計算言語学と人工知能の分野に属し、arXivで全文が公開されています。