プロンプトフレーミングがLLMエラー検出のカウントベース評価を歪める:数値アンカリングからの証拠
この論文は、カウントベースのF1がプロンプトフレーミングによって人為的に膨らむ可能性があり、スパン位置特定が改善しないギャップをF1インフレーションと定義し、ErrorBenchプロトコルを導入します。実験では、アンカープロンプトが最大0.79のF1インフレーションを引き起こすことが示されました。評価では事前設定されたエラーカウントを避け、スパン認識指標を報告することを推奨しています。
新しい研究により、カウントベースのF1指標が大規模言語モデル(LLM)のエラー検出能力を評価する際に深刻な欠陥を持つことが明らかになりました。プロンプトフレーミング(prompt framing)がこの指標を人為的に引き上げる一方で、実際のエラー位置特定能力は向上しないという現象が「F1インフレーション」(F1 Inflation)と名付けられました。
Dekun Yang氏の論文「Prompt Framing Distorts Count-Based Evaluation of LLM Error Detection: Evidence from Numeric Anchoring」は、プロンプトによるカウント歪みを定量化するための制御されたストレステストプロトコル「ErrorBench」を提案しています。研究チームは、143のCoNLL-2014パッセージを基に、6つの最新LLMが5種類のプロンプト条件下で生成した4,290の応答を収集しました。
実験結果によると、CoNLL-2014 M2スタイルのスコアリングでは、アンカープロンプト(anchored prompts)が最大0.79ポイントのF1インフレーションを引き起こし、厳密なマッチング条件では0.96に達しました。結果の頑健性を確認するため、公式のERRANT 3.0.0パイプラインとマルチリファレンススコアリングを用いて100パッセージの再現実験を行ったところ、同様のパターンが再現されました。6モデルの平均で、ブラインドプロンプトからアンカープロンプトへの切り替えにより、カウントF1は+0.21上昇したのに対し、マルチリファレンスERRANT F0.5は+0.04しか上昇しませんでした。これは、カウントF1の上昇が実際の位置特定品質の改善を大きく上回ることを示しています。
興味深いことに、モデルごとにプロンプトへの感受性が異なります。指示に高度に従うGPTやClaudeシステムは大きなカウント応答を生成する傾向があり、Geminiファミリーはこのストレステストプロトコルで小さなカウント応答を示しました。この違いは、モデルアーキテクチャやトレーニング戦略の違いを反映している可能性があります。
この研究の核心的な教訓は、LLM校正や文書レビューの評価において、事前に設定されたエラーカウント(pre-populated error counts)を避け、スパン認識指標(span-aware metrics)をカウントベースの指標と共に報告すべきだということです。この発見は、現在広く使われているF1ベースのLLMエラー検出ベンチマークに直接的な警告を与え、研究者やエンジニアが関連指標を解釈する際に細心の注意を払う必要があることを示唆しています。