2026-06-08 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

UnpredictaBench：评估大语言模型分布随机性的基准

UnpredictaBench是一个新的基准测试，用于评估大型语言模型（LLM）捕捉真实底层分布的能力。随着LLM越来越多地被用作其他实体的替代品（例如，在经济模拟中替代人类），许多模型倾向于收敛到单一合理答案，无法捕捉真实系统的不可预测性。该基准包括448个问题，涉及典型统计分布、随机程序诱导的分布以及描述随机过程的自然语言场景。采用KS@N指标，通过Kolmogorov-Smirnov检验量化模型输出近似黑盒目标分布的程度。实验表明，模型表现差异很大，KS@100得分从接近0到超过20%，没有模型能超过40%。添加推理能力可以略微提高得分，但无法根本解决。UnpredictaBench表明，即使是简单的分布模拟仍然具有挑战性，是使用LLM作为复杂系统替代品的必要第一步。

来源arXiv Computational Linguistics作者: Amirhossein Abaskohi, Amirhossein Dabiriaghdam, Liang Luo, Ellie Dingqiao Wen, Lele Wang, Giuseppe Carenini, Peter West

随着大型语言模型（LLM）在经济学模拟、社会系统建模等领域的应用日益广泛，这些模型被要求承担起模拟人类或其他实体行为的重任。然而，一个根本性的问题逐渐凸显：LLM往往倾向于输出最可能的答案，导致模型生成的样本缺乏真实世界中的不可预测性和多样性。尽管已有研究致力于提升模型输出的多样性，但发现这仅仅停留在“生成不同输出”的层面，远未达到“校准到目标分布”的要求。为此，研究人员提出了UnpredictaBench，一个专门评估LLM分布随机性的基准测试。

UnpredictaBench由448个精心设计的问题组成，涵盖三大类别：典型统计分布（如正态分布、指数分布）、随机程序诱导的分布（即由随机算法产生的分布），以及描述随机过程的自然语言场景。这些问题的设置旨在模拟从底层真实分布中采样的任务，而非简单的答案选择。评估的核心指标是KS@N，该指标基于Kolmogorov-Smirnov统计检验，量化模型生成的大小为N的样本与真实样本之间的分布差异。具体而言，KS@N计算的是当显著性水平为0.05时，我们无法拒绝模型样本与真实样本来自同一分布的原假设的比例。N越大，难度越高，因此KS@100被用作标准指标。

研究团队对包括开源和闭源在内的多种先进模型进行了测试。结果显示，模型在分布采样能力上存在巨大差异。例如，在KS@100指标上，顶尖模型得分也仅为20%左右，而最差的模型几乎为0。更值得注意的是，没有任何模型能够突破40%的关口，这揭示出在分布采样这一能力上存在显著的提升空间。尝试在推理过程中加入链式思维（Chain-of-Thought）等推理技巧后，模型得分略有提高，但效果有限，未能从根本上解决校准问题。

UnpredictaBench的发布提醒我们：即使是最简单的分布模拟任务，当前的LLM也远未达到理想水平。这项工作被认为是使用LLM替代复杂系统的必要第一步，为未来的模型改进指明了方向。研究团队公开了所有代码和数据，鼓励更多研究者共同推动这一领域的发展。