AI News HubLIVE
站內改寫2 分鐘閱讀

RoPoLL:魯棒的大語言模型評委團

本文形式化了基於Huber污染模型的LLM陪審團,並證明即使只有一個評委以LLM典型方式(模式崩潰、諂媚、安全拒絕)產生偏差,任何正污染都會導致PoLL產生無界偏差。通過將陪審團共識視為經典魯棒均值估計,作者提出RoPoLL,用幾何中位數替換聚合函數,實現了最優有限樣本崩潰點1/2。實驗表明,在13個開源評委(4B-675B)、三個獎勵模型基準和四種腐敗機制(高達50%)下,RoPoLL在每一種有偏腐敗類型上都優於PoLL:在匹配計算量的跨維度攻擊上提升約19%,在重尾拜占庭對手上提升數個數量級。一個38B參數的3評委RoPoLL委員會在30%雙模隨機腐敗下,在HelpSteer-2上以18倍參數優勢超越Mistral-Large-3(675B)1.31倍。

來源arXiv AI作者: Anish Acharya, Kris W Pan, Brian Verkhovsky

大語言模型(LLM)評估中,使用多個LLM作為評委並彙總共識分數(即LLM Jury或Panel of LLM Evaluators, PoLL)已成為一種實用方案,但其統計特性尚不明確。近日,來自康奈爾大學等機構的研究人員發表於arXiv的一篇論文《RoPoLL: Robust Panel of LLM Judges》首次嚴格分析了PoLL的魯棒性缺陷,並提出了一種名為RoPoLL的改進方案。

研究團隊首先將LLM陪審團置於Huber污染模型下進行形式化分析。他們發現,只要單個評委出現偏差(例如模式崩潰、諂媚或安全拒絕),即使只有極微小的污染,PoLL的聚合結果也會產生無界偏差,且無論評委數量多少都無法消除。這一發現揭示了傳統評價聚合方法的脆弱性。

為解決該問題,論文將陪審團共識重新定義為經典魯棒均值估計問題,並提出了RoPoLL(Robust Panel of LLM-as-Judge)。RoPoLL保留了PoLL的多評委結構,但用魯棒均值估計器替代了簡單的平均聚合函數,具體採用幾何中位數(Geometric Median, GM)。幾何中位數無需調參,且具備最優有限樣本崩潰點1/2,即當污染比率低於50%時,估計結果仍保持穩健。

理論分析中,作者給出了有限樣本誤差界,並與信息論極小化下界進行了匹配,兩者在參數速率σ√(d/N)上一致,但在崩潰下限上相差√d因子。這一統計-計算差距源於多項式時間的RoPoLL與不可處理的Tukey半空間中位數之間的權衡。

實驗部分,研究人員在13個開源LLM評委(參數規模4B至675B)、三個獎勵模型基準以及四種腐敗機制(污染率高達50%)上進行了測試。結果顯示,RoPoLL在所有有偏腐敗類型上均優於PoLL:在跨維度攻擊下,以相同計算量取得約19%的提升;面對重尾拜占庭攻擊,提升幅度達數個數量級。特別地,一個僅含3個評委、總參數38B的RoPoLL委員會,在30%雙模隨機污染下,於HelpSteer-2基準上以1.31倍準確率超越了675B參數的Mistral-Large-3,實現了18倍參數效率優勢。通過Noisy-GT控制實驗,作者證實RoPoLL的優勢來自於對有偏污染的抵抗,而非對良性噪聲的過度補償。

該研究為LLM評估的魯棒性提供了理論基礎和實踐方案,尤其適用於對抗性環境或評委存在系統性偏差的場景。RoPoLL的提出不僅優化了評價聚合機制,也為多智能體系統的魯棒決策提供了新思路。