対比反射による反復的プロンプト最適化
本論文は、エージェント型情報検索ワークフローにおけるプロンプトを反復的に最適化するフレームワーク「Contrastive Reflection」を提案する。検索や推論のトレースを分析し、エラーに基づく行動スライスを特定し、近傍の成功例と対比することで、教師LLMがターゲットを絞ったプロンプト編集を提案する。HotpotQAでは、Exact Match精度が51.4%から60.4%に向上し、失敗のみやランダム証拠のバリアントを上回り、MIPROv2(59.4%)やGEPA(57.0%)と同等の性能を示した。本フレームワークは、解釈可能性と検証駆動のプロンプト修復を重視する。
大規模言語モデル(LLM)エージェントは情報検索において中心的な役割を果たしつつあり、検索クエリの発行、回答の合成、さらにはIR評価の判定者として機能しています。これらのエージェントを制御するプロンプトの最適化は最適化問題ですが、応用IR設定では盲目的な探索というよりもデバッグに似ています。エンジニアは、どの動作が失敗したか、どの近傍の動作がまだ機能したか、それらの違い、およびプロンプト編集が保持品質を向上させ、回帰を導入しないかを知る必要があります。
そこで本論文では、エージェント型IRワークフローのための反復的プロンプト最適化フレームワーク「Contrastive Reflection」を提案します。このフレームワークはタスク中心の品質定義から始まります。QAエージェントは検索や推論のトレースを公開し、評価エージェントは次元レベルのスコアと根拠を公開します。これらの構造化トレースを使用して、エラーにアンカーされた行動スライスを特定し、同じ領域から近傍の成功例を追加し、教師LLMにターゲットを絞ったプロンプト編集を提案させます。候補編集は、検証性能が向上した場合にのみ受け入れられ、オプションで回帰チェックの対象となります。フレームワークは木ベースのスライスセレクタでインスタンス化されていますが、貢献は木そのものではなく、対比反射ループにあります。
公開されたHotpotQA検索拡張QA設定では、1回の木選択対比修復により、保持されたExact Match精度が51.4%から60.4%に向上しました。失敗のみおよびランダム証拠のバリアントは改善が少なく、以前正しかった例をより多く壊しました。軽量な指示のみの比較では、本手法は現代のプロンプトオプティマイザーに近い性能を示しました。MIPROv2は59.4%、GEPAは57.0%に達しました。結果は、IRエージェントのための解釈可能な最適化ループであり、プロンプト修復をより検査可能で検証駆動型にすることを目指しています。
本手法はKDD 2026のAgent4IRワークショップで発表される予定です。研究は、対比反射が性能を向上させるだけでなく、動作の差異に関する透明なビューを提供し、開発者がプロンプト変更の効果を理解するのに役立つことを強調しています。今後の研究では、より高度なスライス選択と自動回帰検出を探求し、IRエージェントをさらに最適化する予定です。