RoPoLL:鲁棒的大语言模型评委团
本文形式化了基于Huber污染模型的LLM陪审团,并证明即使只有一个评委以LLM典型方式(模式崩溃、谄媚、安全拒绝)产生偏差,任何正污染都会导致PoLL产生无界偏差。通过将陪审团共识视为经典鲁棒均值估计,作者提出RoPoLL,用几何中位数替换聚合函数,实现了最优有限样本崩溃点1/2。实验表明,在13个开源评委(4B-675B)、三个奖励模型基准和四种腐败机制(高达50%)下,RoPoLL在每一种有偏腐败类型上都优于PoLL:在匹配计算量的跨维度攻击上提升约19%,在重尾拜占庭对手上提升数个数量级。一个38B参数的3评委RoPoLL委员会在30%双模随机腐败下,在HelpSteer-2上以18倍参数优势超越Mistral-Large-3(675B)1.31倍。
大语言模型(LLM)评估中,使用多个LLM作为评委并汇总共识分数(即LLM Jury或Panel of LLM Evaluators, PoLL)已成为一种实用方案,但其统计特性尚不明确。近日,来自康奈尔大学等机构的研究人员发表于arXiv的一篇论文《RoPoLL: Robust Panel of LLM Judges》首次严格分析了PoLL的鲁棒性缺陷,并提出了一种名为RoPoLL的改进方案。
研究团队首先将LLM陪审团置于Huber污染模型下进行形式化分析。他们发现,只要单个评委出现偏差(例如模式崩溃、谄媚或安全拒绝),即使只有极微小的污染,PoLL的聚合结果也会产生无界偏差,且无论评委数量多少都无法消除。这一发现揭示了传统评价聚合方法的脆弱性。
为解决该问题,论文将陪审团共识重新定义为经典鲁棒均值估计问题,并提出了RoPoLL(Robust Panel of LLM-as-Judge)。RoPoLL保留了PoLL的多评委结构,但用鲁棒均值估计器替代了简单的平均聚合函数,具体采用几何中位数(Geometric Median, GM)。几何中位数无需调参,且具备最优有限样本崩溃点1/2,即当污染比率低于50%时,估计结果仍保持稳健。
理论分析中,作者给出了有限样本误差界,并与信息论极小化下界进行了匹配,两者在参数速率σ√(d/N)上一致,但在崩溃下限上相差√d因子。这一统计-计算差距源于多项式时间的RoPoLL与不可处理的Tukey半空间中位数之间的权衡。
实验部分,研究人员在13个开源LLM评委(参数规模4B至675B)、三个奖励模型基准以及四种腐败机制(污染率高达50%)上进行了测试。结果显示,RoPoLL在所有有偏腐败类型上均优于PoLL:在跨维度攻击下,以相同计算量取得约19%的提升;面对重尾拜占庭攻击,提升幅度达数个数量级。特别地,一个仅含3个评委、总参数38B的RoPoLL委员会,在30%双模随机污染下,于HelpSteer-2基准上以1.31倍准确率超越了675B参数的Mistral-Large-3,实现了18倍参数效率优势。通过Noisy-GT控制实验,作者证实RoPoLL的优势来自于对有偏污染的抵抗,而非对良性噪声的过度补偿。
该研究为LLM评估的鲁棒性提供了理论基础和实践方案,尤其适用于对抗性环境或评委存在系统性偏差的场景。RoPoLL的提出不仅优化了评价聚合机制,也为多智能体系统的鲁棒决策提供了新思路。