九位法官,两张有效票:相关性错误削弱LLM评估小组
研究显示,由多个LLM组成的评估小组因模型间相关错误,实际信息量远低于独立投票的理想状态。9个前沿模型仅相当于约2个独立投票,准确率下降8-22个百分点,最佳单一模型可媲美或超越整个小组。增加法官或改进聚合算法效果有限。
苹果机器学习研究团队近日发表了一篇重要论文,揭示了LLM作为评估者(LLM-as-a-judge)在面板中存在的严重问题。研究指出,尽管面板聚合多个模型的投票期望获得更可靠的评估,但由于模型之间错误高度相关,实际信息量远低于预期。
研究人员开发了一个框架来测量面板的真实信息价值,并在三个自然语言推理数据集(每个项目100个人类标注)上测试了来自7个模型家族的9个前沿LLM。结果显示,这9位法官实际上只提供了大约2个独立投票的信息量。大约四分之三的面板名义独立性因为模型在相同项目上犯相同错误而丧失。
后果是惊人的:面板的实际准确率比独立投票理想状态低8到22个百分点,而且最佳单一法官在所有条件下都能匹敌甚至超越整个面板。即使增加法官数量或使用更智能的聚合算法(包括已知正确答案的方法)也几乎无济于事——现有方法最多只能缩小这种差距的11%。
研究人员使用Kish有效样本量(n_eff)和Condorcet零模型量化了这些发现,并证明这种缺陷在提示变体、温度、思维链推理以及成对偏好任务(RewardBench)中都是稳健的。瓶颈在于法官之间的相关性,而不是聚合算法,这意味着扩大面板规模无法替代真正独立的评估。这一发现对于当前依赖LLM评估的AI研究和产品具有深远影响,提示我们在构建评估系统时需要更加关注法官之间的独立性,而不是简单增加数量。