穩定性與可操縱性:評估LLM評委在決策後互動下的魯棒性
LLM-as-judge 評估假設評判穩定,但本文表明決策後互動可操縱評判結果。在 MT-Bench 和 AlpacaEval 上的實驗發現,LLM 評委在中性重評下穩定,但針對性挑戰可逆轉決策,影響排名和人類一致性。文章引入評估魯棒性分數(ERS)。
大型語言模型(LLM)作為評判者的評估方法(LLM-as-judge)廣泛用於模型效能基準測試,透過自動化評估器比較和排序模型輸出。這類管道通常假設評判是固定輸入的穩定屬性。然而,一項由 Srimonti Dutta 和 Akshata Kishore Moharir 完成的新研究挑戰了這一假設,揭示了決策後互動會顯著影響評判結果。該研究已被 ACL 2026 GEM 研討會接收。
研究者定義了“決策後可操縱性”:在初始決策後,透過與評判者的後續對話改變評估結果的程度。實驗基於 MT-Bench 和 AlpacaEval 資料集,設計了多種協議。結果表明,LLM 評判者在重複、中立的重新評估下表現出高度穩定性,但在針對性的決策後挑戰下卻變得相當可逆。反基線挑戰協議顯示,穩定的評判可透過動機性互動被推翻;而平衡目標驗證協議則將這種可逆性與淨目標導向的操控區分開。
這種逆轉具有實際後果:它們會降低與人類偏好的一致性、改變基準排名,並在高自我報告置信度下產生有害的評估變化。其中,權威框架(authority framing)尤其具有破壞性,而修訂後的評判往往伴隨低重疊理由,表明是事後合理化而非可靠的錯誤糾正。為量化互動魯棒性,研究者提出了評估魯棒性分數(Evaluation Robustness Score, ERS),它結合了反轉敏感性和平衡方向效應。該工作將決策後互動確定為 LLM-as-judge 評估的一個獨特失效模式,並推動評估協議不僅要衡量靜態一致性,還需衡量挑戰下的魯棒性。
該研究還指出,當前的評估基準可能因這種操縱性而不可靠,建議未來工作應包含對抗性測試來驗證評判的穩健性。作者強調,他們的發現並非否定 LLM 作為評判者的價值,而是呼籲更嚴格的評估標準,以應對互動環境下的實際部署場景。