AI News HubLIVE
站内改写1 分鐘閱讀

擲硬幣的評審?評估LLM作為評審的可靠性與偏見

一項新研究發現,使用大型語言模型(LLM)作為評審(LLM-as-a-Judge)來評估其他模型輸出時存在顯著的不穩定性:成對偏好平均翻轉率為13.6%,28%的問題超過20%的翻轉率,個別問題高達56%。GPT-4o-mini表現出明顯的首位偏見,且不同評審之間的一致性僅為76%。研究表明,單次評估噪聲過大,建議採用多次實驗聚合、隨機化位置和明確報告不確定性。

來源arXiv Computational Linguistics作者: Abel Yagubyan

一篇題為《擲硬幣的評審?評估LLM作為評審的可靠性與偏見》的論文(arXiv:2606.13685)對LLM作為評審(LLM-as-a-Judge)方法的可靠性提出了質疑。該方法目前被廣泛用於排名模型輸出、訓練獎勵模型以及填充公共排行榜,但其執行間的可靠性此前缺乏系統研究。

研究團隊使用兩種OpenAI評審模型(GPT-4o-mini和GPT-4.1-mini),在涵蓋10個類別的29項任務上進行了大量重複實驗。每道問題均進行了50次成對比較和50次點評分,並輔以溫度和提示敏感性消融實驗。

結果顯示,成對比較中偏好翻轉的平均頻率為13.6%,其中28%的問題翻轉率超過20%,個別問題甚至達到56%。GPT-4o-mini還表現出顯著的首位位置偏見,將第一個選項評為優選的比率為72%(p=0.024)。與此同時,點評分的平均差異很小(10分量表上僅0.19–0.36),且總體不具統計顯著性,導致成對與點評分之間的不一致:評審者經常在自身標量分數缺乏實質性差異證據的情況下選出勝者。

除評審內部的波動外,跨評審一致率僅為76%(κ=0.51)。語義等價的提示模板在25%的測試案例中改變了多數結果。確定性解碼可以減少但無法消除不一致性。可靠性曲線分析顯示,平均需要11次重複實驗才能使多數投票以95%的機率恢復50次實驗的參考判決,對於高方差問題則需要15次。

論文指出,上述發現表明單次LLM評審對於高風險評估往往噪聲過高,建議將多次實驗聚合、位置隨機化和明確的不確定性報告作為標準實踐。由於兩項評審均來自同一供應商,跨供應商複製將是重要的下一步研究方向。

這項研究的意義在於,它提醒研究者和從業者,依賴單一LLM評審決策可能帶來不可忽視的風險。隨著LLM在人工智慧評估中的作用日益擴大,確保評審過程的可靠性和透明性變得至關重要。未來的工作應關注不同模型和供應商之間的評審一致性,並探索更穩健的聚合策略。