Metric Match: LLM評価者の信頼性を評価するためのサブセット選択手法
Metric Matchは、限られた人間のアノテーションからLLM評価者の相関ベースの信頼性指標を推定する手法です。ランダム選択と比較して、4つの相関指標と15のデータセットで勝率0.838を達成し、平均推定誤差を18.7%削減、アノテーション需要を32.5%削減しました。医療ケーススタディでは1,041.67ドルのコスト削減を実証。さらに、信頼性推定から信頼性分類(デプロイしきい値を超えるか)へとタスクを拡張し、ランダム選択を上回る性能を示しました。コードは公開されています。
大規模言語モデル(LLM)は、オープンエンドなテキスト生成の評価において人間の労力を削減するために、自動評価者(LLM judge)として広く利用されています。しかし、これらの評価者の信頼性は人間の評価者との一致度に依存しており、その一致度を確認するにはコストのかかる人間によるアノテーションが必要です。この課題に対処するため、研究者らはMetric Matchと呼ばれる手法を開発しました。この手法は、限られたアノテーションからLLM評価者の相関ベースの信頼性指標を推定します。
Metric Matchの核心は、サンプル集合から人間がアノテーションするサブセットを選択する際に、そのサブセットが合成ラベルを用いて母集団の信頼性指標に合致するようにすることです。これにより、選択されたサブセットは全体の分布を代表し、少ないアノテーションで正確な推定が可能になります。実験では、Metric Matchは4つの異なる相関指標(スピアマンの順位相関係数、ピアソンの積率相関係数など)と15のデータセットにおいて、ランダムなサブセット選択に対する勝率0.838を達成しました。平均推定誤差は18.7%減少し、必要なアノテーション量は32.5%削減されました。これは、同じ推定精度を維持しながらアノテーションコストを大幅に削減できることを意味します。
研究チームはコストモデルも提供し、医療分野のケーススタディにおいて、ランダム選択と比較して専門家アノテーションのコストを1,041.67ドル節約できることを示しました。さらに、研究はタスクを信頼性推定から信頼性分類へと拡張し、特定のLLM評価者がデプロイしきい値を超えているかどうかを判定します。この分類タスクでもMetric Matchはランダム選択を上回る性能を示し、実運用における意思決定を直接支援します。
現在、すべてのプロジェクトコードは公開されており、インストール可能なパッケージも提供されています。これにより、研究者や開発者は容易にこの手法を利用できます。本研究は、LLM評価者の信頼性を効率的かつ低コストで評価するための実用的なツールを提供し、LLM自動評価の実用化に向けた信頼性向上に貢献します。