UnpredictaBench:评估大语言模型分布随机性的基准
UnpredictaBench是一个新的基准测试,用于评估大型语言模型(LLM)捕捉真实底层分布的能力。随着LLM越来越多地被用作其他实体的替代品(例如,在经济模拟中替代人类),许多模型倾向于收敛到单一合理答案,无法捕捉真实系统的不可预测性。该基准包括448个问题,涉及典型统计分布、随机程序诱导的分布以及描述随机过程的自然语言场景。采用KS@N指标,通过Kolmogorov-Smirnov检验量化模型输出近似黑盒目标分布的程度。实验表明,模型表现差异很大,KS@100得分从接近0到超过20%,没有模型能超过40%。添加推理能力可以略微提高得分,但无法根本解决。UnpredictaBench表明,即使是简单的分布模拟仍然具有挑战性,是使用LLM作为复杂系统替代品的必要第一步。
随着大型语言模型(LLM)在经济学模拟、社会系统建模等领域的应用日益广泛,这些模型被要求承担起模拟人类或其他实体行为的重任。然而,一个根本性的问题逐渐凸显:LLM往往倾向于输出最可能的答案,导致模型生成的样本缺乏真实世界中的不可预测性和多样性。尽管已有研究致力于提升模型输出的多样性,但发现这仅仅停留在“生成不同输出”的层面,远未达到“校准到目标分布”的要求。为此,研究人员提出了UnpredictaBench,一个专门评估LLM分布随机性的基准测试。
UnpredictaBench由448个精心设计的问题组成,涵盖三大类别:典型统计分布(如正态分布、指数分布)、随机程序诱导的分布(即由随机算法产生的分布),以及描述随机过程的自然语言场景。这些问题的设置旨在模拟从底层真实分布中采样的任务,而非简单的答案选择。评估的核心指标是KS@N,该指标基于Kolmogorov-Smirnov统计检验,量化模型生成的大小为N的样本与真实样本之间的分布差异。具体而言,KS@N计算的是当显著性水平为0.05时,我们无法拒绝模型样本与真实样本来自同一分布的原假设的比例。N越大,难度越高,因此KS@100被用作标准指标。
研究团队对包括开源和闭源在内的多种先进模型进行了测试。结果显示,模型在分布采样能力上存在巨大差异。例如,在KS@100指标上,顶尖模型得分也仅为20%左右,而最差的模型几乎为0。更值得注意的是,没有任何模型能够突破40%的关口,这揭示出在分布采样这一能力上存在显著的提升空间。尝试在推理过程中加入链式思维(Chain-of-Thought)等推理技巧后,模型得分略有提高,但效果有限,未能从根本上解决校准问题。
UnpredictaBench的发布提醒我们:即使是最简单的分布模拟任务,当前的LLM也远未达到理想水平。这项工作被认为是使用LLM替代复杂系统的必要第一步,为未来的模型改进指明了方向。研究团队公开了所有代码和数据,鼓励更多研究者共同推动这一领域的发展。