2026-06-15站内改写2 分で読了更新: 2026-06-15

コイン投げ審査員？LLM-as-a-Judge評価における信頼性とバイアス

LLMを評価者として用いる手法（LLM-as-a-Judge）の信頼性を調べた研究で、ペアワイズ選好の平均反転率が13.6%、28%の問題で20%超、最高56%に達することが判明。GPT-4o-miniは顕著な先頭位置バイアスを示し、評価者間一致率は76%にとどまった。著者らは複数回試行の集約、位置のランダム化、不確実性の明示的報告を推奨している。

ソースarXiv Computational Linguistics著者: Abel Yagubyan

「コイン投げ審査員？LLM-as-a-Judge評価における信頼性とバイアス」と題された論文（arXiv:2606.13685）は、LLMを評価者として用いる手法（LLM-as-a-Judge）の信頼性に疑問を投げかけています。この手法はモデル出力のランク付け、報酬モデルの訓練、公開リーダーボードの作成に広く使われていますが、実行ごとの信頼性は十分に特徴づけられていませんでした。

研究チームは、OpenAIの2つの評価モデル（GPT-4o-miniとGPT-4.1-mini）を用いて、10カテゴリにわたる29タスクで同一の評価を繰り返し実施しました。各質問について50回のペアワイズ試行と50回のポイントワイズ試行を行い、温度やプロンプトの感度に関するアブレーション実験も追加しました。

結果、ペアワイズ選好は平均13.6%の確率で反転し、28%の質問で反転率が20%を超え、ある質問では56%に達しました。GPT-4o-miniは有意な先頭位置バイアスを示し（72%が最初の選択肢を選好、p=0.024）。一方、ポイントワイズのスコア差は平均で小さく（10点満点中0.19～0.36）、全体として統計的に有意ではなく、評価者がスカラースコアで実質的な品質差を示していないにもかかわらず勝者を選ぶという乖離が生じました。

評価者内の不安定性に加え、評価者間の一致率は76%（κ=0.51）にとどまり、意味的に等価なプロンプトテンプレートが25%のケースで多数決結果を変えました。決定論的デコードは不一致を減らすものの完全には排除できませんでした。信頼性曲線分析によると、平均で11回の繰り返し試行が必要で、多数決が50回試行の参照判定を95%の確率で再現するには、高分散の問題では15回が必要です。

これらの発見は、単一回のLLM判定はハイステークスな評価にはノイズが大きすぎることを示唆しており、複数試行の集約、位置のランダム化、不確実性の明示的報告を標準的なプラクティスとすべきです。両方の評価者が単一プロバイダーからのものであるため、プロバイダー間での再現が重要な次のステップです。

本研究は、LLMを用いた評価手法の限界を明らかにし、より信頼性の高い評価フレームワークの開発に向けた重要な一歩です。研究者や実務者は、これらの知見を活用して評価の質を向上させる必要があります。