2026-06-06 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

稳定性与可操纵性：评估LLM评委在决策后交互下的鲁棒性

LLM-as-judge 评估假设评判稳定，但本文表明决策后交互可操纵评判结果。在 MT-Bench 和 AlpacaEval 上的实验发现，LLM 评委在中性重评下稳定，但针对性挑战可逆转决策，影响排名和人类一致性。文章引入评估鲁棒性分数（ERS）。

来源arXiv AI作者: Srimonti Dutta, Akshata Kishore Moharir

大型语言模型（LLM）作为评判者的评估方法（LLM-as-judge）广泛用于模型性能基准测试，通过自动化评估器比较和排序模型输出。这类管道通常假设评判是固定输入的稳定属性。然而，一项由 Srimonti Dutta 和 Akshata Kishore Moharir 完成的新研究挑战了这一假设，揭示了决策后交互会显著影响评判结果。该研究已被 ACL 2026 GEM 研讨会接收。

研究者定义了“决策后可操纵性”：在初始决策后，通过与评判者的后续对话改变评估结果的程度。实验基于 MT-Bench 和 AlpacaEval 数据集，设计了多种协议。结果表明，LLM 评判者在重复、中立的重新评估下表现出高度稳定性，但在针对性的决策后挑战下却变得相当可逆。反基线挑战协议显示，稳定的评判可通过动机性交互被推翻；而平衡目标验证协议则将这种可逆性与净目标导向的操控区分开。

这种逆转具有实际后果：它们会降低与人类偏好的一致性、改变基准排名，并在高自我报告置信度下产生有害的评估变化。其中，权威框架（authority framing）尤其具有破坏性，而修订后的评判往往伴随低重叠理由，表明是事后合理化而非可靠的错误纠正。为量化交互鲁棒性，研究者提出了评估鲁棒性分数（Evaluation Robustness Score, ERS），它结合了反转敏感性和平衡方向效应。该工作将决策后交互确定为 LLM-as-judge 评估的一个独特失效模式，并推动评估协议不仅要衡量静态一致性，还需衡量挑战下的鲁棒性。

该研究还指出，当前的评估基准可能因这种操纵性而不可靠，建议未来工作应包含对抗性测试来验证评判的稳健性。作者强调，他们的发现并非否定 LLM 作为评判者的价值，而是呼吁更严格的评估标准，以应对交互环境下的实际部署场景。