2026-06-06 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

穩定性與可操縱性：評估LLM評委在決策後互動下的魯棒性

LLM-as-judge 評估假設評判穩定，但本文表明決策後互動可操縱評判結果。在 MT-Bench 和 AlpacaEval 上的實驗發現，LLM 評委在中性重評下穩定，但針對性挑戰可逆轉決策，影響排名和人類一致性。文章引入評估魯棒性分數（ERS）。

來源arXiv AI作者: Srimonti Dutta, Akshata Kishore Moharir

大型語言模型（LLM）作為評判者的評估方法（LLM-as-judge）廣泛用於模型效能基準測試，透過自動化評估器比較和排序模型輸出。這類管道通常假設評判是固定輸入的穩定屬性。然而，一項由 Srimonti Dutta 和 Akshata Kishore Moharir 完成的新研究挑戰了這一假設，揭示了決策後互動會顯著影響評判結果。該研究已被 ACL 2026 GEM 研討會接收。

研究者定義了“決策後可操縱性”：在初始決策後，透過與評判者的後續對話改變評估結果的程度。實驗基於 MT-Bench 和 AlpacaEval 資料集，設計了多種協議。結果表明，LLM 評判者在重複、中立的重新評估下表現出高度穩定性，但在針對性的決策後挑戰下卻變得相當可逆。反基線挑戰協議顯示，穩定的評判可透過動機性互動被推翻；而平衡目標驗證協議則將這種可逆性與淨目標導向的操控區分開。

這種逆轉具有實際後果：它們會降低與人類偏好的一致性、改變基準排名，並在高自我報告置信度下產生有害的評估變化。其中，權威框架（authority framing）尤其具有破壞性，而修訂後的評判往往伴隨低重疊理由，表明是事後合理化而非可靠的錯誤糾正。為量化互動魯棒性，研究者提出了評估魯棒性分數（Evaluation Robustness Score, ERS），它結合了反轉敏感性和平衡方向效應。該工作將決策後互動確定為 LLM-as-judge 評估的一個獨特失效模式，並推動評估協議不僅要衡量靜態一致性，還需衡量挑戰下的魯棒性。

該研究還指出，當前的評估基準可能因這種操縱性而不可靠，建議未來工作應包含對抗性測試來驗證評判的穩健性。作者強調，他們的發現並非否定 LLM 作為評判者的價值，而是呼籲更嚴格的評估標準，以應對互動環境下的實際部署場景。