AI News HubLIVE
サイト内リライト2 分で読了

思考は想起を促す:推論がLLMのパラメトリック知識をどのように引き出すか

Google Researchの研究により、単純な事実質問に対しても推論チェーンを生成することで回答精度が向上するという直感に反する現象が明らかになった。2つのメカニズムが特定された:計算バッファ(余分なトークンが追加の計算を提供)と事実プライミング(関連事実の生成が検索を促進する)。

Google Research の研究者 Zorik Gekhman 氏と Jonathan Herzig 氏は、2026 年 6 月 24 日に発表した研究で、大規模言語モデル(LLM)に思考連鎖(チェーン・オブ・ソート、CoT)を生成させると、複雑な推論を必要としない単純な事実質問に対しても回答精度が向上するという直感に反する現象を調査した。従来、CoT は数学問題やプログラム作成のような多段階推論タスクに有効とされてきたが、単一段階の事実質問には意味がないと考えられていた。しかし、研究では、推論を有効にすることで、無効時にはほぼ取得不可能だった正解をモデルが想起できることが示された。

制御実験を通じて、2 つの相補的なメカニズムが明らかになった。1 つ目は「計算バッファ」効果:モデルが推論トークンを生成する際、たとえ無意味な文字列(例:「考えさせて」の繰り返し)であっても、追加の計算ステップ(前方伝播)が提供され、内部状態の洗練と困難な事実の抽出が促進される。ただし、この効果には限界があり、長すぎる擬似テキストでは収穫逓減が生じ、自然な推論軌跡の性能には及ばない。2 つ目は「事実プライミング」:モデルは推論中に関連事実を生成し、それが意味的なウォーミングアップとして機能する。例えば、ネパールの第 10 代国王の名前を問われた場合、モデルは最初に過去 9 人の国王を列挙することがあり、これにより正解の想起が促進される。これは人間の認知における「拡散活性化」に類似している。

しかし、このメカニズムにはリスクもある。モデルが生成する中間事実が幻覚(ハルシネーション)である可能性があり、たった 1 つの幻覚が含まれるだけで正解率が大幅に低下することが判明した。この洞察を活用し、テスト時選択戦略によって幻覚のない事実を含む推論軌跡を優先することで、精度が大幅に向上する。研究チームは、推論が単なるタスク分解や論理的推論以上の役割を果たし、モデルの内部記憶を引き出し、パラメトリック知識の境界を拡張する基本メカニズムであると結論付けている。将来の研究では、事実に基づく中間ステップを促進するプロセス報酬を用いて、より信頼性の高いモデルを訓練できる可能性がある。