2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

擲硬幣的評審？評估LLM作為評審的可靠性與偏見

一項新研究發現，使用大型語言模型（LLM）作為評審（LLM-as-a-Judge）來評估其他模型輸出時存在顯著的不穩定性：成對偏好平均翻轉率為13.6%，28%的問題超過20%的翻轉率，個別問題高達56%。GPT-4o-mini表現出明顯的首位偏見，且不同評審之間的一致性僅為76%。研究表明，單次評估噪聲過大，建議採用多次實驗聚合、隨機化位置和明確報告不確定性。

來源arXiv Computational Linguistics作者: Abel Yagubyan

一篇題為《擲硬幣的評審？評估LLM作為評審的可靠性與偏見》的論文（arXiv:2606.13685）對LLM作為評審（LLM-as-a-Judge）方法的可靠性提出了質疑。該方法目前被廣泛用於排名模型輸出、訓練獎勵模型以及填充公共排行榜，但其執行間的可靠性此前缺乏系統研究。

研究團隊使用兩種OpenAI評審模型（GPT-4o-mini和GPT-4.1-mini），在涵蓋10個類別的29項任務上進行了大量重複實驗。每道問題均進行了50次成對比較和50次點評分，並輔以溫度和提示敏感性消融實驗。

結果顯示，成對比較中偏好翻轉的平均頻率為13.6%，其中28%的問題翻轉率超過20%，個別問題甚至達到56%。GPT-4o-mini還表現出顯著的首位位置偏見，將第一個選項評為優選的比率為72%（p=0.024）。與此同時，點評分的平均差異很小（10分量表上僅0.19–0.36），且總體不具統計顯著性，導致成對與點評分之間的不一致：評審者經常在自身標量分數缺乏實質性差異證據的情況下選出勝者。

除評審內部的波動外，跨評審一致率僅為76%（κ=0.51）。語義等價的提示模板在25%的測試案例中改變了多數結果。確定性解碼可以減少但無法消除不一致性。可靠性曲線分析顯示，平均需要11次重複實驗才能使多數投票以95%的機率恢復50次實驗的參考判決，對於高方差問題則需要15次。

論文指出，上述發現表明單次LLM評審對於高風險評估往往噪聲過高，建議將多次實驗聚合、位置隨機化和明確的不確定性報告作為標準實踐。由於兩項評審均來自同一供應商，跨供應商複製將是重要的下一步研究方向。

這項研究的意義在於，它提醒研究者和從業者，依賴單一LLM評審決策可能帶來不可忽視的風險。隨著LLM在人工智慧評估中的作用日益擴大，確保評審過程的可靠性和透明性變得至關重要。未來的工作應關注不同模型和供應商之間的評審一致性，並探索更穩健的聚合策略。