AI News HubLIVE
站内改写1 分钟阅读

掷硬币的评审?评估LLM作为评审的可靠性与偏见

一项新研究发现,使用大型语言模型(LLM)作为评审(LLM-as-a-Judge)来评估其他模型输出时存在显著的不稳定性:成对偏好平均翻转率为13.6%,28%的问题超过20%的翻转率,个别问题高达56%。GPT-4o-mini表现出明显的首位偏见,且不同评审之间的一致性仅为76%。研究表明,单次评估噪声过大,建议采用多次实验聚合、随机化位置和明确报告不确定性。

来源arXiv Computational Linguistics作者: Abel Yagubyan

一篇题为《掷硬币的评审?评估LLM作为评审的可靠性与偏见》的论文(arXiv:2606.13685)对LLM作为评审(LLM-as-a-Judge)方法的可靠性提出了质疑。该方法目前被广泛用于排名模型输出、训练奖励模型以及填充公共排行榜,但其执行间的可靠性此前缺乏系统研究。

研究团队使用两种OpenAI评审模型(GPT-4o-mini和GPT-4.1-mini),在涵盖10个类别的29项任务上进行了大量重复实验。每道问题均进行了50次成对比较和50次点评分,并辅以温度和提示敏感性消融实验。

结果显示,成对比较中偏好翻转的平均频率为13.6%,其中28%的问题翻转率超过20%,个别问题甚至达到56%。GPT-4o-mini还表现出显著的首位位置偏见,将第一个选项评为优选的比率为72%(p=0.024)。与此同时,点评分的平均差异很小(10分量表上仅0.19–0.36),且总体不具统计显著性,导致成对与点评分之间的不一致:评审者经常在自身标量分数缺乏实质性差异证据的情况下选出胜者。

除评审内部的波动外,跨评审一致率仅为76%(κ=0.51)。语义等价的提示模板在25%的测试案例中改变了多数结果。确定性解码可以减少但无法消除不一致性。可靠性曲线分析显示,平均需要11次重复实验才能使多数投票以95%的概率恢复50次实验的参考判决,对于高方差问题则需要15次。

论文指出,上述发现表明单次LLM评审对于高风险评估往往噪声过高,建议将多次实验聚合、位置随机化和明确的不确定性报告作为标准实践。由于两项评审均来自同一供应商,跨供应商复制将是重要的下一步研究方向。

这项研究的意义在于,它提醒研究者和从业者,依赖单一LLM评审决策可能带来不可忽视的风险。随着LLM在人工智能评估中的作用日益扩大,确保评审过程的可靠性和透明性变得至关重要。未来的工作应关注不同模型和供应商之间的评审一致性,并探索更稳健的聚合策略。