評価の盲点:大規模言語モデルのベンチマークカバレッジに関するステレオロジー理論
新しい論文は、LLMベンチマークカバレッジを評価するステレオロジー理論を提案し、ベンチマークスイートの効果次元がスコア差をはるかに超える大きな盲点を引き起こすことを明らかにし、最小限のベンチマークセットとガードナー問題の解決を提示しています。
Jason Z Wangによる論文「評価の盲点:大規模言語モデルのベンチマークカバレッジに関するステレオロジー理論」は、LLMベンチマークカバレッジを測定するためのステレオロジー理論フレームワークを提案しています。この理論は、有効次元d_effを持つ任意のベンチマークスイートについて、同じスコアと一致する2つの凸能力プロファイル間の可視ハウスドルフ距離が、m^(-1/(d_eff-1))に比例する上限で制限されることを示しています。
実証分析では、3つの独立したリーダーボード(Open LLM v2、拡張12ベンチマークスイート、LiveBench)を評価し、それらの競争フロンティアにおける有効次元が2.86から4.80の範囲にあることを発見しました。これらのベンチマークスイートの構造的盲点は、観測された次点スコア差よりも2桁大きく、統計的ノイズよりも52倍から127倍も大きいことが判明しました。これは、現在の評価方法がモデル能力の違いを過小評価している可能性があることを意味します。
カイ二乗投影モデルでは、等方性事前分布が最も楽観的なケースです。6つの隠れた能力事前分布と4つの環境次元でのシミュレーションでは、上位2モデルの半分割スワップ率は0.38から0.49の範囲にとどまりました。500回のランダムな可視/保留分割試験では、試験の92%でトップ1ランキングが入れ替わり、平均でトップ5モデルのうち2.83モデルが変動しました。これは、ベンチマーク選択のわずかな変化がランキングの大きな変動を引き起こす可能性があることを示しています。
この不安定性を減らすため、研究ではNemhauser (1-1/e) 保証付きの劣モジュラ貪欲アルゴリズムを使用し、4つのベンチマークからなる安定したコアセットを発見しました。7つのベンチマークで90%のカバレッジを達成でき、訓練されたサブセットは四半期を超えて93%から97%の保持率を示しました。このアルゴリズムは、12の内部ベンチマークと27のChatbot Arenaカテゴリでの反実仮想検証により、固有構造がどの評価が代替不可能かを予測できることを確認しました(除去妨害のrho=-0.69、p=0.013)、またどの外部評価が新しい情報をもたらすかも予測できます(rho=+0.38)。
第二の独立した理論的貢献として、論文はガードナー問題1.5(1995)を解決し、C^2サポート関数に対して、S^(D-1)上の最適回復理論を通じて、一般次元におけるミニマックスレートTheta(R/(kappa m^(2/(D-1))))を確立しました。この結果は、高次元空間における関数回復の理解に重要です。
この研究は、LLM評価に理論的基盤を提供し、現在のベンチマーク手法の限界を強調し、より安定した効率的な評価戦略を提案しています。