2026-06-26 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-26 17:00 UTC+9

Know2Guess: 大規模言語モデルの知識境界評価のための汚染認識マルチゾーンベンチマーク

arXiv:2606.26101 の新しい論文は、LLMの知識に基づく回答と推測を区別するためのベンチマーク「Know2Guess」を提案。1200の質問から成り、FLAN-T5、Qwen2.5-Instruct、Llama-3-Instructを評価。Qwen2.5-3B-Instructが最も信頼性が高いが、依然として課題あり。

ソースarXiv Computational Linguistics著者: Renwei Meng, Bowen Zhang, Jian Wang, Xican Wang, Haoyi Wu, Xuanyan Qiu, Shengan Yang

近年、大規模言語モデル（LLM）はさまざまなタスクで驚くべき能力を示していますが、その真の知識境界を信頼性高く評価する方法は依然として課題です。従来の評価手法では、モデルが知識に基づいて回答しているのか、推測やデータ汚染によって出力しているのかを区別することが困難でした。この問題に対処するため、複数の機関の研究者は、Know2Guessと名付けられた汚染認識マルチゾーンベンチマークを提案しました。これは、LLMが回答可能な知識から棄権が期待される未知へと移行する様子を体系的に測定するものです。

Know2Guessベンチマークは、5つのドメイン（常識、科学、歴史、技術、社会）にわたる1,200の厳選された質問で構成されています。各質問には、明確な棄権期待ラベルと汚染リスクメタデータが付与されており、評価の公平性を確保しています。さらに、公式の厳密なパーサーと正規化されたロバスト性パーサーという二重パーサー機構を採用し、評価の精度を高めています。研究者たちは、FLAN-T5、Qwen2.5-Instruct（3Bおよび7B）、Llama-3-Instruct（8B）などの主要モデルを、回答か棄権かを固定したプロンプト、回答のみの制御、プロンプトテンプレートのバリエーションなど、さまざまな設定で評価しました。

実験結果は、このベンチマークが単なる非回答行動では解決されないことを示しています。FLANベースラインモデルは生産的な棄権が弱く、一方、より強力な指示チューニングモデルは選択的ではあるが不完全な回答から棄権への移行を示しました。Qwen2.5-3B-Instructは全体的な信頼性で最良の結果を達成しましたが、回答期待ゾーンでは依然として困難があり、キャリブレーションは不十分で、良性項目の拒否が残っています。プロンプトとパーサーのロバスト性分析では、主なランキングと定性的結論が維持されました。

Know2Guessベンチマークは、LLMの信頼性の異なるが相互作用する次元として、回答可能性、棄権、拒否、汚染を監査するための再現可能なプロトコルを提供します。データセットはGitHubで公開されており、16ページの論文と3つの図を含む詳細な情報が提供されています。この研究は、より信頼性の高いLLM評価手法の基盤を築き、実世界アプリケーションへの信頼できる展開を促進する上で重要な意味を持ちます。