2026-05-28 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

LLMが因果発見に失敗する理由と介入エージェントによる突破方法

本論文は、大規模言語モデルが因果発見を行う際の根本的な限界を証明しています：教師ありファインチューニング、直接選好最適化、インコンテキスト学習などの手法では、類似した観測データを生成する因果グラフを区別できません。著者らは、凍結された言語モデルを介入オラクルとして使用し、外部ベイズループが対数回数のラウンドで候補グラフに収束するエージェンティック因果ベイズ最適化（A-CBO）を提案しています。Corr2Causeでは、A-CBOは訓練なしでファインチューニングベースラインに匹敵し、24変数・18Kテストサンプルに拡張したExtended Corr2Causeでは、A-CBOはファインチューニングおよび選好最適化の両方を大幅に上回ります。

ソースarXiv AI著者: Amartya Roy, Sonali Parbhoo

因果発見は科学的推論の基盤であり、観測データから変数間の因果関係を推定することを目的としています。しかし、大規模言語モデル（LLM）がこのタスクを確実に実行できるかどうかは、未解決の問題でした。最近のベンチマークでは、ファインチューニングされたモデルでも単純な因果グラフで性能が頭打ちになり、複雑さが増すにつれて劣化することが示されていましたが、その失敗の理由は明らかになっていませんでした。

2026年5月に発表された新しい論文で、研究者たちはこの失敗が根本的なものであることを理論的に証明しました。彼らは、教師ありファインチューニング、直接選好最適化、インコンテキスト学習のすべてが、類似した観測データを生成する因果グラフを区別できない予測器を生成することを示しました。区別しようとするとモデルの内部表現が無限に成長する必要があり、これらの手法が機能する条件に違反します。これはカーネル障害定理として形式化され、特定のモデルやデータセットではなく、学習パラダイムに内在する限界であることが示されました。

この限界を突破するために、研究者たちはエージェンティック因果ベイズ最適化（A-CBO）を提案しました。このフレームワークでは、凍結された言語モデルが介入オラクルとして機能し、介入効果に関するターゲットクエリに回答します。一方、外部ベイズループが対数回のラウンドで候補因果グラフに信念を集中させます。決定が障害定理の適用外の空間で行われるため、A-CBOは基礎モデルを変更せずに収束することが保証されます。

実験結果によると、Corr2Causeベンチマークでは、A-CBOは訓練なしでファインチューニングベースラインに匹敵する性能を発揮しました。24変数・18Kテストサンプルに拡張されたExtended Corr2Causeでは、A-CBOはファインチューニングと選好最適化の両方を大幅に上回り、その優位性は問題の規模が大きくなるにつれて拡大しました。この発見は、LLMの因果発見における固有の限界を明らかにすると同時に、外部エージェントフレームワークを通じてこれらの限界を突破する実行可能な道筋を提供しています。