必要だが十分ではない:LLM-as-Judgeの安全評価における温度制御と再現性
LLMを判定者として使う際、温度0で決定論的になるという前提が誤りであることを実証。デフォルト温度1.0により境界項目が不合格/合格に変動し、温度0でも一部の項目は再現不能。判定者の不一致を重要な健全性指標として扱うことを提言。
LLM-as-judge(大規模言語モデルを判定者とする)コンポーネントは、安全評価を含む評価ハーネスで標準的に使用されており、合格/不合格の判定が下流のデプロイ判断を左右することもある。広く信じられている仮定は、判定者のサンプリング温度を0に設定すれば判定が決定的になるというものだ。日本AISIのオープンソースコードaisevを用いたテストでは、この仮定が二重に誤りであることが示された。本論文は2026年6月24日にarXivに提出され、著者はHiroki Tamba、7ページ、2つの表を含む。
第一に、ハーネスは温度やシードを設定せずに判定者を呼び出しており、基礎となるプロバイダーはデフォルトの1.0を静かに適用する。そのため、決定境界付近の項目は同一の実行でも合格/不合格が反転し(20回の実行で項目ごとの不一致率は最大50%)、同一の安全テストケースが実行のたびに異なる結果をもたらす可能性がある。これは、安全評価の結果に依存するデプロイ判断にとって深刻な問題である。
第二に、温度=0に固定しても反転は減少するが完全には排除されない。2つのプロバイダー(Anthropicおよびもう一つの未公開プロバイダー)、3つのモデル階層(規模と能力の異なるモデルを含む)、5つのサンプリング構成にわたる690回のAPI呼び出しのうち、7つの境界項目のうち1~2は強制的なグリーディデコーディング(top_k=1)下でも再現不能だった。つまり、最も決定論的なデコード戦略を採用しても、LLM判定者の判断には無視できないランダム性が残る。
注目すべき点として、Claude Opus 4.7/4.8では温度パラメータ自体が廃止され、新しいモデル世代には主要な緩和策が適用できなくなっている。これにより、研究者は新しいモデルの動作を安定させるために温度=0を設定することができず、問題の緊急性がさらに高まっている。これらの発見は構造的な欠陥を露呈する。分散や判定者の不一致指標なしに単一実行の判定を報告する評価ハーネスは、ノイズを安全特性として提示する可能性がある。研究者らは、評価ハーネスが1回の実行結果のみを報告する場合、規制当局や開発者はモデルが安定した安全性を示していると誤解する可能性があるが、実際には結果が偶然に過ぎないかもしれないと強調する。
このため、研究チームは再現用ハーネス(690回の呼び出し、7条件)を公開し、判定者の不一致をスコアと並んで第一級の健全性指標として扱うことを推奨している。具体的には、平均スコアだけでなく各項目での判定者不一致率を報告し、決定閾値付近では特に不確実性を強調するよう提案する。このアプローチは、点推定のみに頼るのではなく、機械学習で信頼区間を報告するのと類似している。要するに、この研究は温度=0が決定論を保証するという神話を打破し、より信頼性の高いAI評価プロセスを設計するための実証的基盤と具体的な提言を提供するものである。