對比反思:迭代提示最佳化
本文提出對比反思框架,用於迭代最佳化智慧資訊檢索代理的提示。透過分析檢索或推理軌跡,識別錯誤行為並對比成功案例,由教師LLM提出針對性提示修改。在HotpotQA資料集上,該方法將精確匹配準確率從51.4%提升至60.4%,優於僅失敗或隨機證據變體,並與MIPROv2(59.4%)和GEPA(57.0%)等現代最佳化器效能相當。該框架強調可解釋性和驗證驅動的提示修復。
大型語言模型(LLM)代理在資訊檢索領域正變得日益關鍵,它們不僅負責發出檢索查詢、綜合答案,還越來越多地承擔起資訊檢索評估的裁判角色。然而,最佳化控制這些代理行為的提示,本質上是一個最佳化問題,但在實際應用場景中,它更像是一個除錯過程,而非盲目的引數搜尋。工程師們需要明確知道:哪個行為失敗了?哪個鄰近的行為仍然有效?兩者之間的區別是什麼?以及提示修改能否在不引入迴歸問題的前提下提升留出資料的質量?
針對這些需求,本文提出了對比反思框架,這是一種專為智慧資訊檢索工作流設計的迭代式提示最佳化方法。該框架的起點是任務導向的質量定義:問答代理會暴露其檢索或推理軌跡,評分代理則會給出各個維度的得分和理由。這些結構化的軌跡被用來識別以錯誤行為為錨點的行為切片,並從同一區域新增鄰近的成功案例,然後讓一個教師LLM提出有針對性的提示修改建議。候選的修改只有在驗證效能提升時才會被採納,並且可以額外進行迴歸檢查。雖然框架使用基於樹結構的切片選擇器進行了例項化,但其核心貢獻在於對比反思迴圈本身,而非樹結構。
在公開的HotpotQA檢索增強問答測試集上,經過一次樹選擇的對比修復,留出資料的精確匹配準確率從51.4%提升到了60.4%。相比之下,僅使用錯誤案例或隨機證據的變體改進幅度較小,而且破壞了更多原本正確的示例。透過一個簡單的僅指令比較,該方法表現與現代提示最佳化器相當:MIPROv2達到了59.4%,GEPA達到了57.0%。最終得到的是一個可解釋的最佳化迴圈,旨在讓提示修復過程更具可檢查性,並且由驗證結果驅動。
該工作將被收錄於KDD 2026的Agent4IR研討會上。研究強調,對比反思不僅提升了效能,還提供了行為差異的透明檢視,有助於開發者理解提示修改的效果。未來的工作將探索更復雜的切片選擇策略和自動化的迴歸檢測機制,以進一步最佳化資訊檢索代理的表現。