言語モデルのキャリブレーションの詳細:プラットスケーリング、等調回帰、温度スケーリング
本記事では、大規模言語モデルの信頼度と正確性の乖離を埋めるための3つの事後キャリブレーション手法(温度スケーリング、プラットスケーリング、等調回帰)を詳説。各手法の適用方法、LLM特有の課題、RLHFとの相互作用などを解説する。
モデルキャリブレーションとは、モデルが出力する信頼度スコアを実際の正解率と一致させる調整である。モデルが90%の確信度を示すなら、実際に90%の確率で正解するべきだ。大規模言語モデル(LLM)では、このキャリブレーションが不十分であることが多い。2024年のNAACL調査では、事実QA、コード生成、推論タスクにおいて、信頼度スコアと実際の正解率に乖離があることが報告された。また、別の研究では、生物医学モデルの平均キャリブレーションスコアが全テストモデルで23.9%から46.6%にとどまっている。
この問題の標準的な解決策は、事後再キャリブレーションである。保持された検証セットで単純な関数を学習し、元の信頼度スコアをより正確な確率にマッピングする。主な手法として、温度スケーリング、プラットスケーリング、等調回帰の3つがある。これらは元々判別型分類器用に設計されたものであり、LLMに適用する際には注意が必要である。
キャリブレーションの評価指標として最も一般的なのは期待キャリブレーション誤差(ECE)である。ECEは予測を信頼度のビンにグループ化し、各ビン内の平均信頼度と観測された精度の差を計算し、ビンのサイズで加重平均する。ECE=0が完全なキャリブレーションを示す。信頼度と精度の関係を図示する信頼性図(reliability diagram)も有用である。2025年の評価では、GPT-4o-miniをテキスト分類器として使った場合、エラーの66.7%が80%以上の信頼度で発生しており、典型的な過信パターンが確認された。
LLMではキャリブレーションが複雑になる。出力空間が指数関数的に大きく、系列レベルの信頼度を列挙できない。意味的に等価な出力でもトークンレベルの確率が大きく異なることがある。信頼度は粒度によって一致せず、多くのLLMはAPI経由でtop-kトークン確率しか公開しないため、古典的な手法の適用に制限が生じる。
温度スケーリングは、ロジットベクトルをスカラーTで割ってからソフトマックスを適用する。T>1の場合、分布は平坦になり信頼度が下がる。Tは負の対数尤度を最小化することで検証セット上で学習される。パラメータは1つだけで、予測の順位を変えず、計算も安価である。RLHFを受けていないベースモデルでは、単一のTで系統的な過信または過小信頼を修正できることが多い。しかし、RLHFでチューニングされたモデルでは、入力に依存した過信が生じ、単一のTでは対応できない。適応的温度スケーリング(ATS)は、トークンレベルの隠れ特徴から各トークンの温度を予測することでこの問題に対処し、タスク性能を損なうことなくキャリブレーションを10~50%改善することが確認されている。
プラットスケーリングは、未キャリブレーションのスコアにロジスティック関数を当てはめる:p = σ(A·s + B)。AとBは検証セットから学習される。2つの自由パラメータを持ち、データ効率が高いため、キャリブレーションセットが小さい場合に適している。LLMの文脈では、系列レベルまたはトークンレベルの信頼度スコアに適用される。LLM生成コードの信頼度に関する論文では、プラットスケーリングが未キャリブレーションのスコアよりもキャリブレーションの良い出力を生成することが示された。また、テキストからSQLへの変換に関する研究では、単変量プラットスケーリングを拡張した多変量プラットスケーリング(MPS)が提案され、単一スコアベースラインを一貫して上回った。ただし、大域的な系列レベルプラットスケーリングは、局所的な編集判断に依存するタスクでは粗すぎるという制限がある。また、強力なモデルに対してスコアリング性能を低下させる可能性も指摘されている。
等調回帰はノンパラメトリックな手法である。Pool Adjacent Violators Algorithm(PAVA)を用いて、未キャリブレーションスコアからキャリブレーションされた確率への区分定数で単調非減少の写像を学習する。キャリブレーション関数の形状を仮定しないため、信頼度-正確率関係がシグモイド形状でない場合にプラットスケーリングよりも柔軟である。経験的に、等調回帰はプラットスケーリングを上回ることが多い。複数のデータセットとアーキテクチャを対象とした厳密な比較では、等調回帰がECEとBrierスコアで統計的有意差をもってプラットスケーリングを凌駕した。例えば、ランダムフォレストのベースラインは、未キャリブレーションで0.8268だった信頼性スコアが、プラットスケーリングで0.9551、等調回帰で0.9660に改善された。しかし、小規模なキャリブレーションセットでは過学習のリスクがあり、十分なデータが必要である。
現在の文献には3つの未解決のギャップがある。第一に、RLHFとの相互作用は温度スケーリングについてのみ研究されており、プラットスケーリングと等調回帰がRLHF後のモデルでどのように機能するかは体系的にテストされていない。第二に、3つの手法の直接比較は一般機械学習のキャリブレーション文献からのものが多く、LLM固有のベンチマークは稀である。第三に、等調回帰の結果はマッピングを制約できる十分なデータセットを前提としており、プロダクション環境でキャリブレーションセットが限られている場合、プラットスケーリングとの差は縮小または逆転する可能性がある。
結論として、温度スケーリングはほとんどのチームにとって適切な出発点である。RLHFなしのベースモデルでは、単一のTで十分なことが多い。RLHFチューニング済みモデルにはATSへの切り替えが推奨される。キャリブレーションセットが小さい場合や、より大きなパイプラインに組み込む必要がある場合は、プラットスケーリングが実用的な選択肢となる。等調回帰は最も強力な経験的記録を持つが、キャリブレーションセットが十分に大きい場合に限り、マルチクラス設定では正規化対応拡張と組み合わせて使用する。これらの手法の前に、タスクにおける「信頼度」の定義を明確にすることが不可欠である。トークン確率、系列確率、言語化された信頼度、サンプル間の一貫性は、同じ出力に対して異なる値を与える可能性がある。正しい定義が、どのキャリブレーション手法を効果的にするかの前提条件である。