2026-05-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

大型語言模型的置信度校準研究

研究發現大型語言模型（LLMs）在置信度校準上存在類似人類的偏差：在困難任務上過度自信，在簡單任務上則信心不足。研究者開發了LifeEval測試集，用於評估不同難度級別下的模型校準表現。

來源arXiv AI作者: Noam Michael, Daniel BenShushan, Jacob Bien, Don A. Moore

大型語言模型（LLMs）在各類任務中表現出色，但其置信度是否與實際準確性相匹配？一項發表在arXiv上的預註冊研究（編號2605.23909）深入探討了這一問題。該研究由Noam Michael等四位作者於2026年4月3日提交，採用預先註冊的實驗設計以確保透明度和可重複性。研究涵蓋了常識推理、數學計算、事實問答等多種自然語言處理任務，系統收集了模型在每項任務上的置信度輸出，並與實際正確率進行對比。

結果發現，當前主流的LLMs普遍存在過度自信的傾向：平均而言，模型對自己答案的置信度明顯高於實際準確率，差距可達10%至15%。然而，這種過度自信並非均勻分佈，而是表現出強烈的“難易效應”：在面對困難問題時，模型的過度自信尤為突出，置信度與準確率的差距可高達30%以上；相反，在簡單問題上，模型反而顯示出明顯的信心不足，置信度低於準確率。這表明模型並未充分利用其確定性，且校準行為與人類心理學中的經典現象高度相似。

為了系統評估這一現象，研究團隊開發了LifeEval測試基準。LifeEval包含來自不同領域的問題，每個問題附帶人工標註的難度等級，從而允許研究者按難度分層評估校準曲線。該基準可用於比較不同模型規模、訓練資料、解碼策略對校準效能的影響。研究結果對AI系統的可靠性評估具有重要啟示，尤其是在醫療、法律等高風險的決策場景中，模型的信心偏差可能導致嚴重後果。研究者建議，未來的模型訓練和評估應更加註重校準問題，並藉助LifeEval等工具進行精細化的效能分析，以提升AI系統的安全性和可信度。