对比反思:迭代提示优化
本文提出对比反思框架,用于迭代优化智能信息检索代理的提示。通过分析检索或推理轨迹,识别错误行为并对比成功案例,由教师LLM提出针对性提示修改。在HotpotQA数据集上,该方法将精确匹配准确率从51.4%提升至60.4%,优于仅失败或随机证据变体,并与MIPROv2(59.4%)和GEPA(57.0%)等现代优化器性能相当。该框架强调可解释性和验证驱动的提示修复。
大型语言模型(LLM)代理在信息检索领域正变得日益关键,它们不仅负责发出检索查询、综合答案,还越来越多地承担起信息检索评估的裁判角色。然而,优化控制这些代理行为的提示,本质上是一个优化问题,但在实际应用场景中,它更像是一个调试过程,而非盲目的参数搜索。工程师们需要明确知道:哪个行为失败了?哪个邻近的行为仍然有效?两者之间的区别是什么?以及提示修改能否在不引入回归问题的前提下提升留出数据的质量?
针对这些需求,本文提出了对比反思框架,这是一种专为智能信息检索工作流设计的迭代式提示优化方法。该框架的起点是任务导向的质量定义:问答代理会暴露其检索或推理轨迹,评分代理则会给出各个维度的得分和理由。这些结构化的轨迹被用来识别以错误行为为锚点的行为切片,并从同一区域添加邻近的成功案例,然后让一个教师LLM提出有针对性的提示修改建议。候选的修改只有在验证性能提升时才会被采纳,并且可以额外进行回归检查。虽然框架使用基于树结构的切片选择器进行了实例化,但其核心贡献在于对比反思循环本身,而非树结构。
在公开的HotpotQA检索增强问答测试集上,经过一次树选择的对比修复,留出数据的精确匹配准确率从51.4%提升到了60.4%。相比之下,仅使用错误案例或随机证据的变体改进幅度较小,而且破坏了更多原本正确的示例。通过一个简单的仅指令比较,该方法表现与现代提示优化器相当:MIPROv2达到了59.4%,GEPA达到了57.0%。最终得到的是一个可解释的优化循环,旨在让提示修复过程更具可检查性,并且由验证结果驱动。
该工作将被收录于KDD 2026的Agent4IR研讨会上。研究强调,对比反思不仅提升了性能,还提供了行为差异的透明视图,有助于开发者理解提示修改的效果。未来的工作将探索更复杂的切片选择策略和自动化的回归检测机制,以进一步优化信息检索代理的表现。