当校准排名反转:用于大语言模型公平比较的精度控制评估
一篇新论文提出ACE框架,通过控制精度差异来更公平地比较不同大语言模型的校准性能,发现许多先前报告的校准优势在精度控制后大幅减弱,甚至排名反转。
校准是衡量模型置信度与其实际准确性之间一致性的重要概念。现有研究通常使用全局校准指标(如预期校准误差和布里尔分数)来比较不同大语言模型(LLM)的校准性能。然而,郑州大学和微软研究院的研究人员发现,这种比较因模型准确性的差异而产生混淆,导致不公平的结论。他们从理论和实验两方面证明了这一点,指出全局指标无法区分校准误差和精度差异的影响。
为了更公平地跨模型比较,研究团队提出了ACE(精度控制评估)框架,该框架包含三个互补的视角:实例对齐校准、分布对齐校准和候选对齐校准。实例对齐校准保持每实例的预测不变,调整置信度分布;分布对齐校准强制不同模型的置信度分布匹配;候选对齐校准则通过选择子集来平衡准确率。这些方法从不同角度消除了精度差异对校准评估的干扰。
研究人员在多个基准测试(包括MMLU、HellaSwag等)、模型系列(如LLaMA、Mistral等)和置信度获取方法(如直接logit、温度缩放等)上应用ACE,重点比较了小型与大型模型、思考型(如Chain-of-Thought)与非思考型模型。结果揭示了两个关键发现:首先,许多先前在原始全局指标下报告的校准优势在精度控制后大幅减弱;其次,排名反转现象频繁发生——原本受原始指标青睐的模型在控制精度后往往不再占优,甚至落后于其他模型。
这些结果表明,原始的全局校准指标在跨模型比较中并不稳健,公平的校准比较必须考虑准确性差异。ACE框架为实现这一目标提供了有效工具,有助于更可靠地评估和比较LLM的校准性能。该研究于2026年6月29日提交至arXiv,代码和数据将在后续发布。这一工作对模型选型、推理成本优化以及评估基准的设计都具有重要指导意义。