语言模型校准深度解析:Platt缩放、等渗回归与温度缩放
本文详细探讨了三种后处理校准方法——温度缩放、Platt缩放和等渗回归,用于缩小大型语言模型置信度与准确率之间的差距。分析了LLM校准的挑战、RLHF带来的问题,并给出实际应用建议。
模型校准是指调整模型输出的置信度分数,使其与真实准确率保持一致。当一个模型声称90%置信时,它应该恰好有90%的概率正确。对于大型语言模型(LLM),这种校准往往不理想。2024年NAACL的一项调查发现,在事实问答、代码生成和推理任务中,置信度分数与实际正确率存在明显偏差。另一项针对生物医学模型的研究显示,平均校准分数在所有测试模型中仅为23.9%至46.6%。
解决此问题的标准方法是事后再校准(post-hoc recalibration):在保留验证集上拟合一个简单函数,将原始置信度分数映射为更准确的概率。三种主流方法包括温度缩放(temperature scaling)、Platt缩放(Platt scaling)和等渗回归(isotonic regression)。这些方法最初是为判别式分类器设计的,应用于LLM时需要谨慎。
校准的度量指标主要是期望校准误差(ECE)。ECE将预测按置信度分桶,计算每个桶内平均置信度与观测准确率之间的差距,然后按桶大小加权平均。ECE=0表示完美校准。可靠性图(reliability diagram)以图形方式展示置信度与准确率的关系。一个2025年的评估显示,GPT-4o-mini作为文本分类器时,66.7%的错误出现在置信度超过80%的情况下——典型的过度自信模式。
LLM使校准变得复杂。输出空间呈指数级增长,序列级置信度无法枚举;语义等价的输出可能具有截然不同的词元级概率;置信度在不同粒度上不一致;许多LLM仅通过API暴露top-k词元概率,限制了经典方法的应用。
温度缩放通过标量T除以logit向量后再应用softmax。T>1时分布变得平坦,置信度降低;T<1时则更加极端。T通过最小化负对数似然在验证集上拟合。该方法只有一个参数,不改变预测排名,计算成本低。对于未经RLHF的基线模型,单一的T通常足以纠正系统性过自信或不足自信。但经过RLHF调优的模型存在输入依赖的过度自信,单一的T无法适应这种变化。自适应温度缩放(ATS)通过从词元级隐藏特征预测每词元温度来解决此问题,研究显示可将校准改善10–50%而不影响任务性能。
Platt缩放将逻辑函数拟合到未校准分数:p = σ(A·s + B),其中A和B从验证集学习。它有两个自由参数,数据效率高,适合校准集较小的场景。在LLM中,Platt缩放作用于序列级或词元级置信度分数。一篇关于LLM生成代码置信度的论文发现Platt缩放产生了校准更好的输出;另一项针对文本到SQL的研究提出了多变量Platt缩放(MPS),扩展了单变量版本,持续优于基线。但局限性在于:全局序列级Platt缩放对于依赖局部编辑决策的任务过于粗糙;并且可能降低强模型的标准评分性能。
等渗回归采用非参数方法,通过Pool Adjacent Violators算法(PAVA)学习一个分段常数单调递增的映射。它不假设校准函数的形状,因此比Platt缩放更灵活,当置信度-准确率关系并非sigmoid形时尤其有效。经验上,等渗回归通常优于Platt缩放。一项跨多个数据集和架构的比较发现,等渗回归在ECE和Brier分数上以统计显著性击败了Platt缩放。例如,随机森林基线从未经校准的0.8268可靠性分数提升到Platt缩放的0.9551,再到等渗回归的0.9660。但代价是在小校准集上容易过拟合,需要足够数据来约束映射。
当前文献中存在三个未充分探索的空白。首先,RLHF交互仅对温度缩放进行了研究,Platt缩放和等渗回归在RLHF后模型上的表现尚未系统测试。其次,三种方法的直接比较大多来自一般机器学习文献,针对LLM的基准测试很少。第三,等渗回归的结果假设数据集足够大,而在生产环境中,校准集大小可能受限,其与Platt缩放之间的差距可能会缩小甚至逆转。
结论:温度缩放是大多数团队的合理起点。对于未经历RLHF的模型,单一的T通常足够。对于RLHF调优的模型,应切换至ATS。当校准集小或需嵌入更大管道时,Platt缩放是实际选择。等渗回归具有最强的经验记录,适用于校准集足够大的场景,并在多类设置中配合归一化感知扩展使用。在所有这些之前,必须定义清楚任务中的“置信度”含义。词元概率、序列概率、口头化置信度和跨样本一致性可能对同一输出给出不同值。正确的定义是任何校准方法有效的前提。