AI News HubLIVE
サイト内リライト2 分で読了

RoPoLL: ロバストなLLM審査員団

本論文は、Huber汚染モデルの下でLLM Juryを形式化し、単一の審査員が偏ったLLM典型的な方法(モード崩壊、sycoファンシー、安全拒否)で失敗すると、任意の正の汚染に対してPoLLが非有界なバイアスを被ることを示す。審査員のコンセンサスを古典的なロバスト平均推定として捉え、RoPoLLを提案し、幾何中央値を集約関数として使用することで、最適な有限サンプル破綻点1/2を達成する。13の審査員(4B-675B)、3つの報酬モデルベンチマーク、4つの汚染体制(最大50%)での実験により、RoPoLLはすべての偏った汚染タイプでPoLLを凌駕し、38Bの3審査員委員会が30%のバイモーダルランダム汚染下でMistral-Large-3(675B)を1.31倍上回る。

ソースarXiv AI著者: Anish Acharya, Kris W Pan, Brian Verkhovsky

大規模言語モデル(LLM)の評価において、複数のLLMを審査員として使用し、そのコンセンサススコアを集約する手法(LLM Jury、またはPanel of LLM Evaluators, PoLL)が実用的な選択肢となっているが、その統計的性質は十分に理解されていない。コーネル大学などの研究チームがarXivに投稿した論文「RoPoLL: Robust Panel of LLM Judges」は、初めてPoLLのロバスト性の欠陥を厳密に分析し、改良版であるRoPoLLを提案している。

研究チームはまず、LLM JuryをHuber汚染モデルの下で形式化した。その結果、単一の審査員が偏った形で失敗する(モード崩壊、sycoファンシー、安全拒否など)場合、わずかな汚染でもPoLLの集約結果が非有界なバイアスを持つことが明らかになった。このバイアスは審査員の数を増やしても解消されず、従来の評価集約手法の脆弱性を浮き彫りにした。

この問題に対処するため、論文では審査員のコンセンサスを古典的なロバスト平均推定問題として再定義し、RoPoLL(Robust Panel of LLM-as-Judge)を提案した。RoPoLLはPoLLの複数審査員構造を維持しつつ、単純平均の代わりにロバスト平均推定量、具体的には幾何中央値(Geometric Median, GM)を集約関数として使用する。幾何中央値はチューニング不要で、最適な有限サンプル破綻点1/2を持つ。つまり、汚染率が50%未満であれば、推定結果はロバストに保たれる。

理論解析では、有限サンプル誤差限界を与え、情報理論的最小化下界と一致することを示した。両者はパラメトリックレートσ√(d/N)で一致するが、破綻下限では√d因子の差がある。この統計計算ギャップは、多項式時間のRoPoLLが扱いにくいTukey半空間中央値と比較して支払う代償である。

実験では、13のオープンウェイトLLM審査員(パラメータ規模4B~675B)、3つの報酬モデルベンチマーク、4つの汚染体制(汚染率最大50%)で評価が行われた。結果は、RoPoLLがすべての偏った汚染タイプでPoLLを上回ることを示した。クロス次元攻撃では、同じ計算量で約19%の改善、重尾ビザンチン攻撃では数桁の改善が見られた。特筆すべきは、わずか3審査員、総パラメータ38BのRoPoLL委員会が、30%のバイモーダルランダム汚染下でHelpSteer-2ベンチマークにおいて、675BパラメータのMistral-Large-3を1.31倍の精度で上回り、18倍のパラメータ効率を達成したことだ。Noisy-GTコントロール実験により、RoPoLLの優位性が偏った汚染への耐性に起因し、良性ノイズへの過剰補償ではないことが確認された。

本研究は、LLM評価のロバスト性に理論的基盤と実用的な解決策を提供し、特に敵対的環境や審査員に系統的バイアスがある場合に有効である。RoPoLLの提案は評価集約メカニズムを最適化するだけでなく、マルチエージェントシステムにおけるロバストな意思決定にも新たな視点をもたらす。