2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

ERRORQUAKE：開源大語言模型中錯誤嚴重性的重尾分佈

即使準確率相同，不同的開源大語言模型（LLM）在錯誤嚴重性分佈上也存在顯著差異——這種差異是標量錯誤率所無法捕捉的。我們引入了Errorquake-10k基準測試，包含10,000個查詢，在8個領域和5個難度等級上對每個回答進行0-4連續嚴重性評分，併為21個開源模型擬合了嚴重性分佈。

來源arXiv Machine Learning作者: Jason Z Wang

在人工智能領域，大語言模型（LLM）的準確性評估通常依賴於整體錯誤率，但這種標量指標可能掩蓋錯誤嚴重性的重要差異。近期，一項名為ERRORQUAKE的研究引入了Errorquake-10k基準測試，旨在量化LLM輸出的錯誤嚴重性分佈。該基準測試包含10,000個查詢，覆蓋8個領域和5個難度等級，每個回答在0-4的連續尺度上評分。研究團隊對21個開源權重模型進行了嚴重性分佈擬合，並使用古登堡-裏希特上尾斜率（b值）作為分佈指標，同時通過自助法計算95%置信區間。

結果表明，在匹配準確率（誤差小於0.05）的情況下，210個模型對中有85對的b值置信區間不重疊，這意味着即使是準確率相近的模型，其錯誤嚴重性分佈也可能存在顯著差異。例如，deepseek-v3.2與ministral-14b在準確率均為0.586時，b值差異達到0.47。研究還通過519項三評分者的人類驗證研究確認了測量的可靠性（ICC=0.85），並驗證了LLM裁判排名的有效性（ρ=0.89），同時確認了密集模型的規模相關性（ρ_s=-0.86）。

更重要的是，研究人員證明了一個不可約簡定理：嚴重性分佈與錯誤率在信息上是不冗餘的。條件互信息分析顯示，在給定錯誤率的情況下，模型身份與b值之間的互信息為1.56比特，這意味着64.5%的跨模型b值方差無法由錯誤率解釋。此外，嚴重性機制分類（κ=0.83）揭示了錯誤類型隨嚴重程度發生範疇性轉變：低嚴重錯誤中71%為檢索錯誤，而高嚴重錯誤中39%為虛構，並且這種組成隨模型規模變化（p<0.0001）。

這項研究的意義在於，它表明僅報告準確率不足以全面評估模型，嚴重性分佈提供了錯誤率無法捕捉的區分信息。未來，模型評估應同時報告準確率和嚴重性分佈，以便更準確地反映模型的實際表現和風險。這對模型選擇、推理成本優化以及產品部署具有重要指導意義。