2026-07-01 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-07-01 16:54 UTC+9

BayesBench：マルチターン証拠蓄積下でのLLM信念軌道の評価

大規模言語モデル（LLM）はマルチターン対話で証拠に基づき信念を更新すべきだが、既存評価は単一ターンに焦点を当てている。本論文では、3つの漸進的に複雑なタスク（ベイズ推定、ベイズ予測、潜在フレームベイズ予測）からなるBayesBenchベンチマークを提案し、LLMの信念更新が合理的ベイズ推論とどの程度一致するかを評価する。7つのLLM（3B-70B）で実験した結果、スケーリングにより潜在推論と証拠蓄積は改善するが、下流予測への信頼できる転移は見られず、潜在構造の推論と合理的信念更新の間にギャップがあることが明らかになった。

ソースarXiv AI著者: Ankur Samanta, Akshayaa Magesh, Tal Lancewicki, Ayush Jain, Youliang Yu, Paul Sajda, Kaveh Hassani, Aditya Modi, Daniel R. Jiang, Yonathan Efroni

大規模言語モデル（LLM）は、マルチターン対話において、各ターンで新たな証拠を取得し、それに基づいて環境に関する不確実性を低減することが期待される。理性的な振る舞いのためには、環境を支配する未観測の変数を推論し、証拠が蓄積されるにつれて信念を更新する必要がある。しかし、既存の評価のほとんどは、モデルの最終ターンの回答のみを単一ターン形式で評価しており、このプロセスは検証されていない。そこで本研究では、マルチターン設定におけるLLMの信念更新が合理的なベイズ推論とどの程度一致するかを問い、BayesBenchを導入する。これは、3つの漸進的に複雑なタスクを通じてこれを探るシミュレーション環境スイートである。タスクは以下の通り：（i）ベイズ推定：モデルが逐次的な証拠から未知のパラメータを推論する。（ii）ベイズ予測：モデルが潜在変数に関する推論された信念を結果予測に変換する。（iii）潜在フレームベイズ予測：観測がユーザー・ペルソナのフレーミングを通じてフィルタリングされ、潜在状態とペルソナの共同推論が必要となる。7つのLLM（3B～70B）を対象とした実験では、スケーリングによって潜在推論と証拠蓄積が改善され、更新がベイズ事後分布と一致することもあった。しかし、これらの利得は下流の予測タスクには確実に転移せず、潜在構造を推論することと、それを用いて対象結果に関する信念を合理的に更新することの間のギャップが明らかになった。この発見は、マルチターン対話におけるLLMの実際の推論能力を理解する上で重要であり、今後の研究の方向性を示すものである。研究者らは、より大規模なモデルは証拠蓄積において優れるものの、その能力を正確な予測に変換するには依然として不足があると指摘し、このギャップを埋めるための新しい訓練手法やアーキテクチャの開発が必要であると結論付けている。将来的には、信念更新プロセスを直接最適化することや、より豊かな推論モジュールを導入することで、LLMの合理的な意思決定能力を向上させる可能性が模索されるべきである。