2026-06-04 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

言語モデルにおけるコンテキスト使用のための提示時変数としての談話役割ラベル

新しい研究では、「参照：」、「指示：」、「例：」などの談話役割ラベルが言語モデルのコンテキストへの依存にどのように影響するかを調査。500個のMMLU-Pro項目を使用したペア固定コンテンツプローブにより、ラベルによって誤解を招く情報の採用率が56～84パーセントポイント変化することが判明。指示や参照のラベルは採用を増加させ、例のラベルは抑制する。RAGベンチマークでラッパーラベルを報告・制御するよう推奨。

ソースarXiv Computational Linguistics著者: Jianguo Zhu

近年、文脈拡張された言語モデルシステムは、提供されたコンテンツを「参照:」「証拠:」「指示:」「注記:」「例:」などのラベルでラップすることが一般的になっています。しかしながら、これらのラベルがモデルの行動に与える影響は十分に調査されていませんでした。朱建国が主導する新しい研究では、この現象を実験的に明らかにしています。

研究者らは、500個のMMLU-Pro項目を使用したペア固定コンテンツプローブを設計しました。各項目は同じ誤解を招く回答を含む主張を異なる談話役割ラベルの下で受け取り、モデルが注入された誤った選択肢を出力するかどうかで採用を測定しました。GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct、Qwen2.5-7B-Instructの4モデルをテストした結果、誤解採用率はラベルによって56～84パーセントポイントも変化することが分かりました。特に、「指示:」や「参照:」のような結合的またはソース的なラベルは高い採用を引き起こす一方、「例:」は一貫して採用を抑制しました。

さらに、境界プローブにより、この効果の境界条件が明らかになりました。算術タスクではラベルの効果が弱まり、段落状の外部文脈ではラベル間の差は小さくなります。短答評価により、モデルが単に選択肢の文字をコピーしているわけではないことが確認されました。また、ネストされたラベル競合の実験は、例示的なフレーミングが採用範囲を制限できることを示唆しています。200ケースの単著者による手動監査も、短答の対比が保守的な判断のもとで安定していることを確認しました。

研究者らの結論は限定的ではありますが、実用的な示唆を含んでいます：文脈利用およびリーダー側RAGベンチマークはラッパーラベルを報告し制御すべきであり、提示の選択が提供された文脈への依存度を変える可能性があるため、将来のモデル評価とシステム設計において重要な指針を提供します。