2026-06-05 22:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

語言模型校準深度解析：Platt縮放、等滲迴歸與温度縮放

本文詳細探討了三種後處理校準方法——温度縮放、Platt縮放和等滲迴歸，用於縮小大型語言模型置信度與準確率之間的差距。分析了LLM校準的挑戰、RLHF帶來的問題，並給出實際應用建議。

來源KDnuggets作者: Nate Rosidi

模型校準是指調整模型輸出的置信度分數，使其與真實準確率保持一致。當一個模型聲稱90%置信時，它應該恰好有90%的概率正確。對於大型語言模型（LLM），這種校準往往不理想。2024年NAACL的一項調查發現，在事實問答、代碼生成和推理任務中，置信度分數與實際正確率存在明顯偏差。另一項針對生物醫學模型的研究顯示，平均校準分數在所有測試模型中僅為23.9%至46.6%。

解決此問題的標準方法是事後再校準（post-hoc recalibration）：在保留驗證集上擬合一個簡單函數，將原始置信度分數映射為更準確的概率。三種主流方法包括温度縮放（temperature scaling）、Platt縮放（Platt scaling）和等滲迴歸（isotonic regression）。這些方法最初是為判別式分類器設計的，應用於LLM時需要謹慎。

校準的度量指標主要是期望校準誤差（ECE）。ECE將預測按置信度分桶，計算每個桶內平均置信度與觀測準確率之間的差距，然後按桶大小加權平均。ECE=0表示完美校準。可靠性圖（reliability diagram）以圖形方式展示置信度與準確率的關係。一個2025年的評估顯示，GPT-4o-mini作為文本分類器時，66.7%的錯誤出現在置信度超過80%的情況下——典型的過度自信模式。

LLM使校準變得複雜。輸出空間呈指數級增長，序列級置信度無法枚舉；語義等價的輸出可能具有截然不同的詞元級概率；置信度在不同粒度上不一致；許多LLM僅通過API暴露top-k詞元概率，限制了經典方法的應用。

温度縮放通過標量T除以logit向量後再應用softmax。T>1時分佈變得平坦，置信度降低；T<1時則更加極端。T通過最小化負對數似然在驗證集上擬合。該方法只有一個參數，不改變預測排名，計算成本低。對於未經RLHF的基線模型，單一的T通常足以糾正系統性過自信或不足自信。但經過RLHF調優的模型存在輸入依賴的過度自信，單一的T無法適應這種變化。自適應温度縮放（ATS）通過從詞元級隱藏特徵預測每詞元温度來解決此問題，研究顯示可將校準改善10–50%而不影響任務性能。

Platt縮放將邏輯函數擬合到未校準分數：p = σ(A·s + B)，其中A和B從驗證集學習。它有兩個自由參數，數據效率高，適合校準集較小的場景。在LLM中，Platt縮放作用於序列級或詞元級置信度分數。一篇關於LLM生成代碼置信度的論文發現Platt縮放產生了校準更好的輸出；另一項針對文本到SQL的研究提出了多變量Platt縮放（MPS），擴展了單變量版本，持續優於基線。但侷限性在於：全局序列級Platt縮放對於依賴局部編輯決策的任務過於粗糙；並且可能降低強模型的標準評分性能。

等滲迴歸採用非參數方法，通過Pool Adjacent Violators算法（PAVA）學習一個分段常數單調遞增的映射。它不假設校準函數的形狀，因此比Platt縮放更靈活，當置信度-準確率關係並非sigmoid形時尤其有效。經驗上，等滲迴歸通常優於Platt縮放。一項跨多個數據集和架構的比較發現，等滲迴歸在ECE和Brier分數上以統計顯著性擊敗了Platt縮放。例如，隨機森林基線從未經校準的0.8268可靠性分數提升到Platt縮放的0.9551，再到等滲迴歸的0.9660。但代價是在小校準集上容易過擬合，需要足夠數據來約束映射。

當前文獻中存在三個未充分探索的空白。首先，RLHF交互僅對温度縮放進行了研究，Platt縮放和等滲迴歸在RLHF後模型上的表現尚未系統測試。其次，三種方法的直接比較大多來自一般機器學習文獻，針對LLM的基準測試很少。第三，等滲迴歸的結果假設數據集足夠大，而在生產環境中，校準集大小可能受限，其與Platt縮放之間的差距可能會縮小甚至逆轉。

結論：温度縮放是大多數團隊的合理起點。對於未經歷RLHF的模型，單一的T通常足夠。對於RLHF調優的模型，應切換至ATS。當校準集小或需嵌入更大管道時，Platt縮放是實際選擇。等滲迴歸具有最強的經驗記錄，適用於校準集足夠大的場景，並在多類設置中配合歸一化感知擴展使用。在所有這些之前，必須定義清楚任務中的“置信度”含義。詞元概率、序列概率、口頭化置信度和跨樣本一致性可能對同一輸出給出不同值。正確的定義是任何校準方法有效的前提。