2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 15:54 UTC+8

BayesBench：评估多轮证据积累下的大语言模型信念轨迹

大语言模型（LLM）在多轮对话中需要根据新证据更新信念，但现有评估多关注单轮最终答案。本文提出BayesBench基准，通过三个渐进复杂任务（贝叶斯估计、贝叶斯预测、潜在框架贝叶斯预测）评估LLM信念更新与理性贝叶斯推理的匹配程度。在7个LLM（3B-70B）上，规模扩大改善了潜在推理和证据积累，但提升未能可靠迁移到下游预测，揭示了推断潜在结构与理性更新信念之间的差距。

来源arXiv AI作者: Ankur Samanta, Akshayaa Magesh, Tal Lancewicki, Ayush Jain, Youliang Yu, Paul Sajda, Kaveh Hassani, Aditya Modi, Daniel R. Jiang, Yonathan Efroni

大语言模型（LLM）通常部署在多轮对话场景中，每一轮对话都为模型提供新的证据，理论上应降低其对环境的不确定性。理性行为要求模型推断控制环境的未观测变量，并在证据积累过程中更新信念。然而，大多数评估仅关注模型在单轮格式下的最终回答，忽视了这一过程。针对这一空白，研究人员提出了BayesBench——一套仿真环境套件，用于评估LLM在多轮证据积累场景下信念轨迹与理性贝叶斯推理的匹配程度。

BayesBench包含三个渐进复杂的任务：一是贝叶斯估计，模型需从序列证据中推断未知参数；二是贝叶斯预测，模型将推断出的潜在变量信念转化为结果预测；三是潜在框架贝叶斯预测，观测数据通过用户角色框架过滤，要求模型对潜在状态和角色进行联合推断。研究团队在7个参数规模从3B到70B不等的LLM上进行了测试。

实验结果显示，随着模型规模扩大，LLM在潜在推理和证据积累方面表现提升，其信念更新偶尔能匹配贝叶斯后验。然而，这些改进并未可靠地迁移到下游预测任务中，从而暴露了模型在推断潜在结构与理性更新信念之间的显著差距。这一发现对理解LLM在多轮交互中的实际推理能力具有重要意义，也为未来研究提供了方向。研究人员还指出，尽管较大模型在证据积累方面表现更好，但在将这种能力转化为准确的预测时仍然存在不足，这提示我们需要开发新的训练方法或架构来弥合这一差距。未来工作可以探索如何通过直接优化信念更新过程或引入更丰富的推理模块来提升LLM的理性决策能力。