9人の審査員、実質2票:相関エラーがLLM評価パネルの信頼性を損なう
複数のLLMからなる評価パネルは、モデル間の相関エラーのため、独立投票の理想から大きく乖離することが判明。9つの最先端モデルをテストした結果、実質的な情報量は独立投票約2票分に過ぎず、精度は理想よりも8~22ポイント低かった。最良の単一モデルはパネル全体と同等以上の性能を示し、審査員の追加や集約アルゴリズムの改良では改善が限られる。
アップルの機械学習研究チームは、LLMを判定者(LLM-as-a-judge)として使用するパネルに深刻な問題があることを明らかにした論文を発表しました。複数のモデルの投票を集約することで、より信頼性の高い評価が得られると期待されていますが、モデル間のエラーが強く相関しているため、実際の情報量は期待を大幅に下回ることが判明しました。
研究者らは、パネルの真の情報価値を測定する枠組みを開発し、7つのモデルファミリーから9つの最先端LLMを、3つの自然言語推論データセット(各項目100件の人間によるアノテーション付き)でテストしました。その結果、9人の判定者は実質的に約2つの独立投票分の情報しか提供していないことがわかりました。パネルの名目上の独立性の約4分の3は、モデルが同じ項目で同じ誤りを犯すために失われています。
結果は顕著です。パネルの実際の精度は、独立投票が達成するであろう理想よりも8~22パーセントポイント低く、最良の単一判定者は全条件でパネル全体に匹敵するか、それを上回る性能を示しました。判定者を追加したり、よりスマートな集約アルゴリズム(正解にアクセスできる場合でも)を使用しても、ほとんど効果はなく、既存の方法ではこのギャップの最大11%しか埋められません。
研究者は、Kish有効サンプルサイズ(n_eff)とコンドルセヌルモデルを用いてこれらの発見を定量化し、この欠陥がプロンプトのバリエーション、温度、思考連鎖推論、およびペアワイズ選好タスク(RewardBench)においても頑健であることを示しました。ボトルネックは判定者間の相関であり、集約アルゴリズムではありません。つまり、パネルの規模を拡大しても、真に独立した評価の代用にはならないのです。この発見は、現在LLM評価に依存しているAI研究と製品に深遠な影響を及ぼし、評価システムを構築する際には、単に数を増やすのではなく、判定者間の独立性により注意を払う必要があることを示唆しています。