2026-07-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-01 15:57 UTC+8

RoPoLL：魯棒的大語言模型評委團

本文形式化了基於Huber污染模型的LLM陪審團，並證明即使只有一個評委以LLM典型方式（模式崩潰、諂媚、安全拒絕）產生偏差，任何正污染都會導致PoLL產生無界偏差。通過將陪審團共識視為經典魯棒均值估計，作者提出RoPoLL，用幾何中位數替換聚合函數，實現了最優有限樣本崩潰點1/2。實驗表明，在13個開源評委（4B-675B）、三個獎勵模型基準和四種腐敗機制（高達50%）下，RoPoLL在每一種有偏腐敗類型上都優於PoLL：在匹配計算量的跨維度攻擊上提升約19%，在重尾拜占庭對手上提升數個數量級。一個38B參數的3評委RoPoLL委員會在30%雙模隨機腐敗下，在HelpSteer-2上以18倍參數優勢超越Mistral-Large-3（675B）1.31倍。

來源arXiv AI作者: Anish Acharya, Kris W Pan, Brian Verkhovsky

大語言模型（LLM）評估中，使用多個LLM作為評委並彙總共識分數（即LLM Jury或Panel of LLM Evaluators, PoLL）已成為一種實用方案，但其統計特性尚不明確。近日，來自康奈爾大學等機構的研究人員發表於arXiv的一篇論文《RoPoLL: Robust Panel of LLM Judges》首次嚴格分析了PoLL的魯棒性缺陷，並提出了一種名為RoPoLL的改進方案。

研究團隊首先將LLM陪審團置於Huber污染模型下進行形式化分析。他們發現，只要單個評委出現偏差（例如模式崩潰、諂媚或安全拒絕），即使只有極微小的污染，PoLL的聚合結果也會產生無界偏差，且無論評委數量多少都無法消除。這一發現揭示了傳統評價聚合方法的脆弱性。

為解決該問題，論文將陪審團共識重新定義為經典魯棒均值估計問題，並提出了RoPoLL（Robust Panel of LLM-as-Judge）。RoPoLL保留了PoLL的多評委結構，但用魯棒均值估計器替代了簡單的平均聚合函數，具體採用幾何中位數（Geometric Median, GM）。幾何中位數無需調參，且具備最優有限樣本崩潰點1/2，即當污染比率低於50%時，估計結果仍保持穩健。

理論分析中，作者給出了有限樣本誤差界，並與信息論極小化下界進行了匹配，兩者在參數速率σ√(d/N)上一致，但在崩潰下限上相差√d因子。這一統計-計算差距源於多項式時間的RoPoLL與不可處理的Tukey半空間中位數之間的權衡。

實驗部分，研究人員在13個開源LLM評委（參數規模4B至675B）、三個獎勵模型基準以及四種腐敗機制（污染率高達50%）上進行了測試。結果顯示，RoPoLL在所有有偏腐敗類型上均優於PoLL：在跨維度攻擊下，以相同計算量取得約19%的提升；面對重尾拜占庭攻擊，提升幅度達數個數量級。特別地，一個僅含3個評委、總參數38B的RoPoLL委員會，在30%雙模隨機污染下，於HelpSteer-2基準上以1.31倍準確率超越了675B參數的Mistral-Large-3，實現了18倍參數效率優勢。通過Noisy-GT控制實驗，作者證實RoPoLL的優勢來自於對有偏污染的抵抗，而非對良性噪聲的過度補償。

該研究為LLM評估的魯棒性提供了理論基礎和實踐方案，尤其適用於對抗性環境或評委存在系統性偏差的場景。RoPoLL的提出不僅優化了評價聚合機制，也為多智能體系統的魯棒決策提供了新思路。