2026-07-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-01 15:57 UTC+8

RoPoLL：鲁棒的大语言模型评委团

本文形式化了基于Huber污染模型的LLM陪审团，并证明即使只有一个评委以LLM典型方式（模式崩溃、谄媚、安全拒绝）产生偏差，任何正污染都会导致PoLL产生无界偏差。通过将陪审团共识视为经典鲁棒均值估计，作者提出RoPoLL，用几何中位数替换聚合函数，实现了最优有限样本崩溃点1/2。实验表明，在13个开源评委（4B-675B）、三个奖励模型基准和四种腐败机制（高达50%）下，RoPoLL在每一种有偏腐败类型上都优于PoLL：在匹配计算量的跨维度攻击上提升约19%，在重尾拜占庭对手上提升数个数量级。一个38B参数的3评委RoPoLL委员会在30%双模随机腐败下，在HelpSteer-2上以18倍参数优势超越Mistral-Large-3（675B）1.31倍。

来源arXiv AI作者: Anish Acharya, Kris W Pan, Brian Verkhovsky

大语言模型（LLM）评估中，使用多个LLM作为评委并汇总共识分数（即LLM Jury或Panel of LLM Evaluators, PoLL）已成为一种实用方案，但其统计特性尚不明确。近日，来自康奈尔大学等机构的研究人员发表于arXiv的一篇论文《RoPoLL: Robust Panel of LLM Judges》首次严格分析了PoLL的鲁棒性缺陷，并提出了一种名为RoPoLL的改进方案。

研究团队首先将LLM陪审团置于Huber污染模型下进行形式化分析。他们发现，只要单个评委出现偏差（例如模式崩溃、谄媚或安全拒绝），即使只有极微小的污染，PoLL的聚合结果也会产生无界偏差，且无论评委数量多少都无法消除。这一发现揭示了传统评价聚合方法的脆弱性。

为解决该问题，论文将陪审团共识重新定义为经典鲁棒均值估计问题，并提出了RoPoLL（Robust Panel of LLM-as-Judge）。RoPoLL保留了PoLL的多评委结构，但用鲁棒均值估计器替代了简单的平均聚合函数，具体采用几何中位数（Geometric Median, GM）。几何中位数无需调参，且具备最优有限样本崩溃点1/2，即当污染比率低于50%时，估计结果仍保持稳健。

理论分析中，作者给出了有限样本误差界，并与信息论极小化下界进行了匹配，两者在参数速率σ√(d/N)上一致，但在崩溃下限上相差√d因子。这一统计-计算差距源于多项式时间的RoPoLL与不可处理的Tukey半空间中位数之间的权衡。

实验部分，研究人员在13个开源LLM评委（参数规模4B至675B）、三个奖励模型基准以及四种腐败机制（污染率高达50%）上进行了测试。结果显示，RoPoLL在所有有偏腐败类型上均优于PoLL：在跨维度攻击下，以相同计算量取得约19%的提升；面对重尾拜占庭攻击，提升幅度达数个数量级。特别地，一个仅含3个评委、总参数38B的RoPoLL委员会，在30%双模随机污染下，于HelpSteer-2基准上以1.31倍准确率超越了675B参数的Mistral-Large-3，实现了18倍参数效率优势。通过Noisy-GT控制实验，作者证实RoPoLL的优势来自于对有偏污染的抵抗，而非对良性噪声的过度补偿。

该研究为LLM评估的鲁棒性提供了理论基础和实践方案，尤其适用于对抗性环境或评委存在系统性偏差的场景。RoPoLL的提出不仅优化了评价聚合机制，也为多智能体系统的鲁棒决策提供了新思路。