RICE-PO:將檢索互動轉化為推理代理的信用訊號
檢索正從單次匹配向互動式推理發展,語言代理需迭代檢查證據、重構查詢並再次搜尋。訓練此類代理面臨信用分配挑戰:可執行動作(如查詢或摘要)可由檢索器直接評估,而潛在推理步驟無法直接觀察且僅影響未來可執行動作。這種不對稱性使基於最終結果的獎勵分配不可靠。本文提出RICE-PO,一種無需批評者的策略最佳化框架,將檢索互動轉化為區域性學習訊號。RICE-PO選擇高不確定性的可執行動作作為錨點,使用檢索指標評估區域性反事實分支,並僅在推理到動作的影響強且未來殘餘效應穩定時,將信用傳播給潛在推理步驟。在BRIGHT和BEIR基準上,相同檢索器設定下,RICE-PO一致優於基於提示的代理和基於群體的強化學習基線。結果表明,代理-環境互動的結構本身可為訓練基於推理的檢索代理提供有效監督。
文章情報
要點
- RICE-PO是一種無需批評者的策略最佳化框架,用於訓練基於推理的檢索代理。
- 它透過選擇高不確定性動作作為錨點並評估反事實分支,解決信用分配問題。
- 在BRIGHT和BEIR基準上,RICE-PO優於基於提示和基於群體強化學習的基線方法。
為什麼重要
這條新聞值得關注,因為RICE-PO是一種無需批評者的策略最佳化框架,用於訓練基於推理的檢索代理。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近日,一篇發表於arXiv的論文(編號2605.26352)提出了一種名為RICE-PO的新框架,旨在解決訓練互動式檢索語言代理時面臨的信用分配難題。隨著檢索技術從單次匹配向互動式推理演進,語言代理需要像人類研究者一樣,逐步檢查證據、重新表述查詢並多次搜尋,才能得出準確答案。然而,這種迭代推理過程帶來了一個核心挑戰:代理執行的可觀察動作(如傳送查詢或生成摘要)可以直接由檢索系統評估,但代理內部潛在的推理步驟(如如何分析證據、如何決定下一步查詢)卻無法直接觀測,且只能間接影響未來的可執行動作。這種不對稱性使得基於最終結果(如檢索文件的相關性)的獎勵分配變得不可靠,因為同樣的最終獎勵可能錯誤地歸因於那些實際上並未促進檢索成功的推理步驟。
RICE-PO框架的創新之處在於,它不需要額外的批評者模型,而是直接從代理與檢索環境的互動中提取區域性的學習訊號。具體來說,RICE-PO首先識別代理在執行時不確定性較高的動作作為錨點,然後利用檢索指標評估這些錨點動作的區域性反事實分支(即如果代理做出不同決策會怎樣),最後僅當推理步驟對動作的影響足夠強且未來的殘餘效應穩定時,才將信用從動作傳播回推理步驟。這種機制有效地防止了錯誤的歸因,使得每一次信用更新都建立在堅實的因果證據之上。
研究團隊在BRIGHT和BEIR兩個檢索基準上對RICE-PO進行了評估。結果顯示,在相同檢索系統設定下,RICE-PO一致優於傳統的基於提示的代理方法和基於群體的強化學習基線。這些結果有力地表明,代理與環境的互動結構本身就可以為訓練基於推理的檢索代理提供豐富的監督訊號,而無需依賴複雜的外部獎勵建模。這項工作為下一代檢索增強語言模型的訓練開闢了新方向,尤其在需要多步推理和動態查詢調整的應用場景(如問答、事實核查、知識發現)中具有重要潛力。