2026-07-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-01 15:52 UTC+8

對比反思：迭代提示最佳化

本文提出對比反思框架，用於迭代最佳化智慧資訊檢索代理的提示。透過分析檢索或推理軌跡，識別錯誤行為並對比成功案例，由教師LLM提出針對性提示修改。在HotpotQA資料集上，該方法將精確匹配準確率從51.4%提升至60.4%，優於僅失敗或隨機證據變體，並與MIPROv2（59.4%）和GEPA（57.0%）等現代最佳化器效能相當。該框架強調可解釋性和驗證驅動的提示修復。

來源arXiv AI作者: Derek Koh, Jinghui Mo, Benjamin H. Le, Jiening Zhan, Baofen Zheng, Kevin Bevis, Nathaniel C. Owen, Lauren Elizabeth Charney, Wenqiong Liu, Jingwei Wu

大型語言模型（LLM）代理在資訊檢索領域正變得日益關鍵，它們不僅負責發出檢索查詢、綜合答案，還越來越多地承擔起資訊檢索評估的裁判角色。然而，最佳化控制這些代理行為的提示，本質上是一個最佳化問題，但在實際應用場景中，它更像是一個除錯過程，而非盲目的引數搜尋。工程師們需要明確知道：哪個行為失敗了？哪個鄰近的行為仍然有效？兩者之間的區別是什麼？以及提示修改能否在不引入迴歸問題的前提下提升留出資料的質量？

針對這些需求，本文提出了對比反思框架，這是一種專為智慧資訊檢索工作流設計的迭代式提示最佳化方法。該框架的起點是任務導向的質量定義：問答代理會暴露其檢索或推理軌跡，評分代理則會給出各個維度的得分和理由。這些結構化的軌跡被用來識別以錯誤行為為錨點的行為切片，並從同一區域新增鄰近的成功案例，然後讓一個教師LLM提出有針對性的提示修改建議。候選的修改只有在驗證效能提升時才會被採納，並且可以額外進行迴歸檢查。雖然框架使用基於樹結構的切片選擇器進行了例項化，但其核心貢獻在於對比反思迴圈本身，而非樹結構。

在公開的HotpotQA檢索增強問答測試集上，經過一次樹選擇的對比修復，留出資料的精確匹配準確率從51.4%提升到了60.4%。相比之下，僅使用錯誤案例或隨機證據的變體改進幅度較小，而且破壞了更多原本正確的示例。透過一個簡單的僅指令比較，該方法表現與現代提示最佳化器相當：MIPROv2達到了59.4%，GEPA達到了57.0%。最終得到的是一個可解釋的最佳化迴圈，旨在讓提示修復過程更具可檢查性，並且由驗證結果驅動。

該工作將被收錄於KDD 2026的Agent4IR研討會上。研究強調，對比反思不僅提升了效能，還提供了行為差異的透明檢視，有助於開發者理解提示修改的效果。未來的工作將探索更復雜的切片選擇策略和自動化的迴歸檢測機制，以進一步最佳化資訊檢索代理的表現。