語言模型校準深度解析:Platt縮放、等滲迴歸與温度縮放
本文詳細探討了三種後處理校準方法——温度縮放、Platt縮放和等滲迴歸,用於縮小大型語言模型置信度與準確率之間的差距。分析了LLM校準的挑戰、RLHF帶來的問題,並給出實際應用建議。
模型校準是指調整模型輸出的置信度分數,使其與真實準確率保持一致。當一個模型聲稱90%置信時,它應該恰好有90%的概率正確。對於大型語言模型(LLM),這種校準往往不理想。2024年NAACL的一項調查發現,在事實問答、代碼生成和推理任務中,置信度分數與實際正確率存在明顯偏差。另一項針對生物醫學模型的研究顯示,平均校準分數在所有測試模型中僅為23.9%至46.6%。
解決此問題的標準方法是事後再校準(post-hoc recalibration):在保留驗證集上擬合一個簡單函數,將原始置信度分數映射為更準確的概率。三種主流方法包括温度縮放(temperature scaling)、Platt縮放(Platt scaling)和等滲迴歸(isotonic regression)。這些方法最初是為判別式分類器設計的,應用於LLM時需要謹慎。
校準的度量指標主要是期望校準誤差(ECE)。ECE將預測按置信度分桶,計算每個桶內平均置信度與觀測準確率之間的差距,然後按桶大小加權平均。ECE=0表示完美校準。可靠性圖(reliability diagram)以圖形方式展示置信度與準確率的關係。一個2025年的評估顯示,GPT-4o-mini作為文本分類器時,66.7%的錯誤出現在置信度超過80%的情況下——典型的過度自信模式。
LLM使校準變得複雜。輸出空間呈指數級增長,序列級置信度無法枚舉;語義等價的輸出可能具有截然不同的詞元級概率;置信度在不同粒度上不一致;許多LLM僅通過API暴露top-k詞元概率,限制了經典方法的應用。
温度縮放通過標量T除以logit向量後再應用softmax。T>1時分佈變得平坦,置信度降低;T<1時則更加極端。T通過最小化負對數似然在驗證集上擬合。該方法只有一個參數,不改變預測排名,計算成本低。對於未經RLHF的基線模型,單一的T通常足以糾正系統性過自信或不足自信。但經過RLHF調優的模型存在輸入依賴的過度自信,單一的T無法適應這種變化。自適應温度縮放(ATS)通過從詞元級隱藏特徵預測每詞元温度來解決此問題,研究顯示可將校準改善10–50%而不影響任務性能。
Platt縮放將邏輯函數擬合到未校準分數:p = σ(A·s + B),其中A和B從驗證集學習。它有兩個自由參數,數據效率高,適合校準集較小的場景。在LLM中,Platt縮放作用於序列級或詞元級置信度分數。一篇關於LLM生成代碼置信度的論文發現Platt縮放產生了校準更好的輸出;另一項針對文本到SQL的研究提出了多變量Platt縮放(MPS),擴展了單變量版本,持續優於基線。但侷限性在於:全局序列級Platt縮放對於依賴局部編輯決策的任務過於粗糙;並且可能降低強模型的標準評分性能。
等滲迴歸採用非參數方法,通過Pool Adjacent Violators算法(PAVA)學習一個分段常數單調遞增的映射。它不假設校準函數的形狀,因此比Platt縮放更靈活,當置信度-準確率關係並非sigmoid形時尤其有效。經驗上,等滲迴歸通常優於Platt縮放。一項跨多個數據集和架構的比較發現,等滲迴歸在ECE和Brier分數上以統計顯著性擊敗了Platt縮放。例如,隨機森林基線從未經校準的0.8268可靠性分數提升到Platt縮放的0.9551,再到等滲迴歸的0.9660。但代價是在小校準集上容易過擬合,需要足夠數據來約束映射。
當前文獻中存在三個未充分探索的空白。首先,RLHF交互僅對温度縮放進行了研究,Platt縮放和等滲迴歸在RLHF後模型上的表現尚未系統測試。其次,三種方法的直接比較大多來自一般機器學習文獻,針對LLM的基準測試很少。第三,等滲迴歸的結果假設數據集足夠大,而在生產環境中,校準集大小可能受限,其與Platt縮放之間的差距可能會縮小甚至逆轉。
結論:温度縮放是大多數團隊的合理起點。對於未經歷RLHF的模型,單一的T通常足夠。對於RLHF調優的模型,應切換至ATS。當校準集小或需嵌入更大管道時,Platt縮放是實際選擇。等滲迴歸具有最強的經驗記錄,適用於校準集足夠大的場景,並在多類設置中配合歸一化感知擴展使用。在所有這些之前,必須定義清楚任務中的“置信度”含義。詞元概率、序列概率、口頭化置信度和跨樣本一致性可能對同一輸出給出不同值。正確的定義是任何校準方法有效的前提。