2026-06-05 22:00 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

语言模型校准深度解析：Platt缩放、等渗回归与温度缩放

本文详细探讨了三种后处理校准方法——温度缩放、Platt缩放和等渗回归，用于缩小大型语言模型置信度与准确率之间的差距。分析了LLM校准的挑战、RLHF带来的问题，并给出实际应用建议。

来源KDnuggets作者: Nate Rosidi

模型校准是指调整模型输出的置信度分数，使其与真实准确率保持一致。当一个模型声称90%置信时，它应该恰好有90%的概率正确。对于大型语言模型（LLM），这种校准往往不理想。2024年NAACL的一项调查发现，在事实问答、代码生成和推理任务中，置信度分数与实际正确率存在明显偏差。另一项针对生物医学模型的研究显示，平均校准分数在所有测试模型中仅为23.9%至46.6%。

解决此问题的标准方法是事后再校准（post-hoc recalibration）：在保留验证集上拟合一个简单函数，将原始置信度分数映射为更准确的概率。三种主流方法包括温度缩放（temperature scaling）、Platt缩放（Platt scaling）和等渗回归（isotonic regression）。这些方法最初是为判别式分类器设计的，应用于LLM时需要谨慎。

校准的度量指标主要是期望校准误差（ECE）。ECE将预测按置信度分桶，计算每个桶内平均置信度与观测准确率之间的差距，然后按桶大小加权平均。ECE=0表示完美校准。可靠性图（reliability diagram）以图形方式展示置信度与准确率的关系。一个2025年的评估显示，GPT-4o-mini作为文本分类器时，66.7%的错误出现在置信度超过80%的情况下——典型的过度自信模式。

LLM使校准变得复杂。输出空间呈指数级增长，序列级置信度无法枚举；语义等价的输出可能具有截然不同的词元级概率；置信度在不同粒度上不一致；许多LLM仅通过API暴露top-k词元概率，限制了经典方法的应用。

温度缩放通过标量T除以logit向量后再应用softmax。T>1时分布变得平坦，置信度降低；T<1时则更加极端。T通过最小化负对数似然在验证集上拟合。该方法只有一个参数，不改变预测排名，计算成本低。对于未经RLHF的基线模型，单一的T通常足以纠正系统性过自信或不足自信。但经过RLHF调优的模型存在输入依赖的过度自信，单一的T无法适应这种变化。自适应温度缩放（ATS）通过从词元级隐藏特征预测每词元温度来解决此问题，研究显示可将校准改善10–50%而不影响任务性能。

Platt缩放将逻辑函数拟合到未校准分数：p = σ(A·s + B)，其中A和B从验证集学习。它有两个自由参数，数据效率高，适合校准集较小的场景。在LLM中，Platt缩放作用于序列级或词元级置信度分数。一篇关于LLM生成代码置信度的论文发现Platt缩放产生了校准更好的输出；另一项针对文本到SQL的研究提出了多变量Platt缩放（MPS），扩展了单变量版本，持续优于基线。但局限性在于：全局序列级Platt缩放对于依赖局部编辑决策的任务过于粗糙；并且可能降低强模型的标准评分性能。

等渗回归采用非参数方法，通过Pool Adjacent Violators算法（PAVA）学习一个分段常数单调递增的映射。它不假设校准函数的形状，因此比Platt缩放更灵活，当置信度-准确率关系并非sigmoid形时尤其有效。经验上，等渗回归通常优于Platt缩放。一项跨多个数据集和架构的比较发现，等渗回归在ECE和Brier分数上以统计显著性击败了Platt缩放。例如，随机森林基线从未经校准的0.8268可靠性分数提升到Platt缩放的0.9551，再到等渗回归的0.9660。但代价是在小校准集上容易过拟合，需要足够数据来约束映射。

当前文献中存在三个未充分探索的空白。首先，RLHF交互仅对温度缩放进行了研究，Platt缩放和等渗回归在RLHF后模型上的表现尚未系统测试。其次，三种方法的直接比较大多来自一般机器学习文献，针对LLM的基准测试很少。第三，等渗回归的结果假设数据集足够大，而在生产环境中，校准集大小可能受限，其与Platt缩放之间的差距可能会缩小甚至逆转。

结论：温度缩放是大多数团队的合理起点。对于未经历RLHF的模型，单一的T通常足够。对于RLHF调优的模型，应切换至ATS。当校准集小或需嵌入更大管道时，Platt缩放是实际选择。等渗回归具有最强的经验记录，适用于校准集足够大的场景，并在多类设置中配合归一化感知扩展使用。在所有这些之前，必须定义清楚任务中的“置信度”含义。词元概率、序列概率、口头化置信度和跨样本一致性可能对同一输出给出不同值。正确的定义是任何校准方法有效的前提。