2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:08 UTC+8

当校准排名反转：用于大语言模型公平比较的精度控制评估

一篇新论文提出ACE框架，通过控制精度差异来更公平地比较不同大语言模型的校准性能，发现许多先前报告的校准优势在精度控制后大幅减弱，甚至排名反转。

来源arXiv Computational Linguistics作者: Zhichao Yang, Caiqi Zhang, Ruihan Yang, Chengzu Li, Nigel Collier, Deqing Yang

校准是衡量模型置信度与其实际准确性之间一致性的重要概念。现有研究通常使用全局校准指标（如预期校准误差和布里尔分数）来比较不同大语言模型（LLM）的校准性能。然而，郑州大学和微软研究院的研究人员发现，这种比较因模型准确性的差异而产生混淆，导致不公平的结论。他们从理论和实验两方面证明了这一点，指出全局指标无法区分校准误差和精度差异的影响。

为了更公平地跨模型比较，研究团队提出了ACE（精度控制评估）框架，该框架包含三个互补的视角：实例对齐校准、分布对齐校准和候选对齐校准。实例对齐校准保持每实例的预测不变，调整置信度分布；分布对齐校准强制不同模型的置信度分布匹配；候选对齐校准则通过选择子集来平衡准确率。这些方法从不同角度消除了精度差异对校准评估的干扰。

研究人员在多个基准测试（包括MMLU、HellaSwag等）、模型系列（如LLaMA、Mistral等）和置信度获取方法（如直接logit、温度缩放等）上应用ACE，重点比较了小型与大型模型、思考型（如Chain-of-Thought）与非思考型模型。结果揭示了两个关键发现：首先，许多先前在原始全局指标下报告的校准优势在精度控制后大幅减弱；其次，排名反转现象频繁发生——原本受原始指标青睐的模型在控制精度后往往不再占优，甚至落后于其他模型。

这些结果表明，原始的全局校准指标在跨模型比较中并不稳健，公平的校准比较必须考虑准确性差异。ACE框架为实现这一目标提供了有效工具，有助于更可靠地评估和比较LLM的校准性能。该研究于2026年6月29日提交至arXiv，代码和数据将在后续发布。这一工作对模型选型、推理成本优化以及评估基准的设计都具有重要指导意义。