2026-05-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

大型语言模型的置信度校准研究

研究发现大型语言模型（LLMs）在置信度校准上存在类似人类的偏差：在困难任务上过度自信，在简单任务上则信心不足。研究者开发了LifeEval测试集，用于评估不同难度级别下的模型校准表现。

来源arXiv AI作者: Noam Michael, Daniel BenShushan, Jacob Bien, Don A. Moore

大型语言模型（LLMs）在各类任务中表现出色，但其置信度是否与实际准确性相匹配？一项发表在arXiv上的预注册研究（编号2605.23909）深入探讨了这一问题。该研究由Noam Michael等四位作者于2026年4月3日提交，采用预先注册的实验设计以确保透明度和可重复性。研究涵盖了常识推理、数学计算、事实问答等多种自然语言处理任务，系统收集了模型在每项任务上的置信度输出，并与实际正确率进行对比。

结果发现，当前主流的LLMs普遍存在过度自信的倾向：平均而言，模型对自己答案的置信度明显高于实际准确率，差距可达10%至15%。然而，这种过度自信并非均匀分布，而是表现出强烈的“难易效应”：在面对困难问题时，模型的过度自信尤为突出，置信度与准确率的差距可高达30%以上；相反，在简单问题上，模型反而显示出明显的信心不足，置信度低于准确率。这表明模型并未充分利用其确定性，且校准行为与人类心理学中的经典现象高度相似。

为了系统评估这一现象，研究团队开发了LifeEval测试基准。LifeEval包含来自不同领域的问题，每个问题附带人工标注的难度等级，从而允许研究者按难度分层评估校准曲线。该基准可用于比较不同模型规模、训练数据、解码策略对校准性能的影响。研究结果对AI系统的可靠性评估具有重要启示，尤其是在医疗、法律等高风险的决策场景中，模型的信心偏差可能导致严重后果。研究者建议，未来的模型训练和评估应更加注重校准问题，并借助LifeEval等工具进行精细化的性能分析，以提升AI系统的安全性和可信度。