2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 15:52 UTC+8

对比反思：迭代提示优化

本文提出对比反思框架，用于迭代优化智能信息检索代理的提示。通过分析检索或推理轨迹，识别错误行为并对比成功案例，由教师LLM提出针对性提示修改。在HotpotQA数据集上，该方法将精确匹配准确率从51.4%提升至60.4%，优于仅失败或随机证据变体，并与MIPROv2（59.4%）和GEPA（57.0%）等现代优化器性能相当。该框架强调可解释性和验证驱动的提示修复。

来源arXiv AI作者: Derek Koh, Jinghui Mo, Benjamin H. Le, Jiening Zhan, Baofen Zheng, Kevin Bevis, Nathaniel C. Owen, Lauren Elizabeth Charney, Wenqiong Liu, Jingwei Wu

大型语言模型（LLM）代理在信息检索领域正变得日益关键，它们不仅负责发出检索查询、综合答案，还越来越多地承担起信息检索评估的裁判角色。然而，优化控制这些代理行为的提示，本质上是一个优化问题，但在实际应用场景中，它更像是一个调试过程，而非盲目的参数搜索。工程师们需要明确知道：哪个行为失败了？哪个邻近的行为仍然有效？两者之间的区别是什么？以及提示修改能否在不引入回归问题的前提下提升留出数据的质量？

针对这些需求，本文提出了对比反思框架，这是一种专为智能信息检索工作流设计的迭代式提示优化方法。该框架的起点是任务导向的质量定义：问答代理会暴露其检索或推理轨迹，评分代理则会给出各个维度的得分和理由。这些结构化的轨迹被用来识别以错误行为为锚点的行为切片，并从同一区域添加邻近的成功案例，然后让一个教师LLM提出有针对性的提示修改建议。候选的修改只有在验证性能提升时才会被采纳，并且可以额外进行回归检查。虽然框架使用基于树结构的切片选择器进行了实例化，但其核心贡献在于对比反思循环本身，而非树结构。

在公开的HotpotQA检索增强问答测试集上，经过一次树选择的对比修复，留出数据的精确匹配准确率从51.4%提升到了60.4%。相比之下，仅使用错误案例或随机证据的变体改进幅度较小，而且破坏了更多原本正确的示例。通过一个简单的仅指令比较，该方法表现与现代提示优化器相当：MIPROv2达到了59.4%，GEPA达到了57.0%。最终得到的是一个可解释的优化循环，旨在让提示修复过程更具可检查性，并且由验证结果驱动。

该工作将被收录于KDD 2026的Agent4IR研讨会上。研究强调，对比反思不仅提升了性能，还提供了行为差异的透明视图，有助于开发者理解提示修改的效果。未来的工作将探索更复杂的切片选择策略和自动化的回归检测机制，以进一步优化信息检索代理的表现。