2026-06-15站内改写1 分钟阅读更新: 2026-06-15

掷硬币的评审？评估LLM作为评审的可靠性与偏见

一项新研究发现，使用大型语言模型（LLM）作为评审（LLM-as-a-Judge）来评估其他模型输出时存在显著的不稳定性：成对偏好平均翻转率为13.6%，28%的问题超过20%的翻转率，个别问题高达56%。GPT-4o-mini表现出明显的首位偏见，且不同评审之间的一致性仅为76%。研究表明，单次评估噪声过大，建议采用多次实验聚合、随机化位置和明确报告不确定性。

来源arXiv Computational Linguistics作者: Abel Yagubyan

一篇题为《掷硬币的评审？评估LLM作为评审的可靠性与偏见》的论文（arXiv:2606.13685）对LLM作为评审（LLM-as-a-Judge）方法的可靠性提出了质疑。该方法目前被广泛用于排名模型输出、训练奖励模型以及填充公共排行榜，但其执行间的可靠性此前缺乏系统研究。

研究团队使用两种OpenAI评审模型（GPT-4o-mini和GPT-4.1-mini），在涵盖10个类别的29项任务上进行了大量重复实验。每道问题均进行了50次成对比较和50次点评分，并辅以温度和提示敏感性消融实验。

结果显示，成对比较中偏好翻转的平均频率为13.6%，其中28%的问题翻转率超过20%，个别问题甚至达到56%。GPT-4o-mini还表现出显著的首位位置偏见，将第一个选项评为优选的比率为72%（p=0.024）。与此同时，点评分的平均差异很小（10分量表上仅0.19–0.36），且总体不具统计显著性，导致成对与点评分之间的不一致：评审者经常在自身标量分数缺乏实质性差异证据的情况下选出胜者。

除评审内部的波动外，跨评审一致率仅为76%（κ=0.51）。语义等价的提示模板在25%的测试案例中改变了多数结果。确定性解码可以减少但无法消除不一致性。可靠性曲线分析显示，平均需要11次重复实验才能使多数投票以95%的概率恢复50次实验的参考判决，对于高方差问题则需要15次。

论文指出，上述发现表明单次LLM评审对于高风险评估往往噪声过高，建议将多次实验聚合、位置随机化和明确的不确定性报告作为标准实践。由于两项评审均来自同一供应商，跨供应商复制将是重要的下一步研究方向。

这项研究的意义在于，它提醒研究者和从业者，依赖单一LLM评审决策可能带来不可忽视的风险。随着LLM在人工智能评估中的作用日益扩大，确保评审过程的可靠性和透明性变得至关重要。未来的工作应关注不同模型和供应商之间的评审一致性，并探索更稳健的聚合策略。