九位法官,兩張有效票:相關性錯誤削弱LLM評估小組
研究顯示,由多個LLM組成的評估小組因模型間相關錯誤,實際資訊量遠低於獨立投票的理想狀態。9個前沿模型僅相當於約2個獨立投票,準確率下降8-22個百分點,最佳單一模型可媲美或超越整個小組。增加法官或改進聚合演算法效果有限。
蘋果機器學習研究團隊近日發表了一篇重要論文,揭示了LLM作為評估者(LLM-as-a-judge)在面板中存在的嚴重問題。研究指出,儘管面板聚合多個模型的投票期望獲得更可靠的評估,但由於模型之間錯誤高度相關,實際資訊量遠低於預期。
研究人員開發了一個框架來測量面板的真實資訊價值,並在三個自然語言推理資料集(每個專案100個人類標註)上測試了來自7個模型家族的9個前沿LLM。結果顯示,這9位法官實際上只提供了大約2個獨立投票的資訊量。大約四分之三的面板名義獨立性因為模型在相同專案上犯相同錯誤而喪失。
後果是驚人的:面板的實際準確率比獨立投票理想狀態低8到22個百分點,而且最佳單一法官在所有條件下都能匹敵甚至超越整個面板。即使增加法官數量或使用更智慧的聚合演算法(包括已知正確答案的方法)也幾乎無濟於事——現有方法最多隻能縮小這種差距的11%。
研究人員使用Kish有效樣本量(n_eff)和Condorcet零模型量化了這些發現,並證明這種缺陷在提示變體、溫度、思維鏈推理以及成對偏好任務(RewardBench)中都是穩健的。瓶頸在於法官之間的相關性,而不是聚合演算法,這意味著擴大面板規模無法替代真正獨立的評估。這一發現對於當前依賴LLM評估的AI研究和產品具有深遠影響,提示我們在構建評估系統時需要更加關注法官之間的獨立性,而不是簡單增加數量。