RICE-PO:将检索交互转化为推理代理的信用信号
检索正从单次匹配向交互式推理发展,语言代理需迭代检查证据、重构查询并再次搜索。训练此类代理面临信用分配挑战:可执行动作(如查询或摘要)可由检索器直接评估,而潜在推理步骤无法直接观察且仅影响未来可执行动作。这种不对称性使基于最终结果的奖励分配不可靠。本文提出RICE-PO,一种无需批评者的策略优化框架,将检索交互转化为局部学习信号。RICE-PO选择高不确定性的可执行动作作为锚点,使用检索指标评估局部反事实分支,并仅在推理到动作的影响强且未来残余效应稳定时,将信用传播给潜在推理步骤。在BRIGHT和BEIR基准上,相同检索器设置下,RICE-PO一致优于基于提示的代理和基于群体的强化学习基线。结果表明,代理-环境交互的结构本身可为训练基于推理的检索代理提供有效监督。
文章情报
要点
- RICE-PO是一种无需批评者的策略优化框架,用于训练基于推理的检索代理。
- 它通过选择高不确定性动作作为锚点并评估反事实分支,解决信用分配问题。
- 在BRIGHT和BEIR基准上,RICE-PO优于基于提示和基于群体强化学习的基线方法。
为什么重要
这条新闻值得关注,因为RICE-PO是一种无需批评者的策略优化框架,用于训练基于推理的检索代理。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近日,一篇发表于arXiv的论文(编号2605.26352)提出了一种名为RICE-PO的新框架,旨在解决训练交互式检索语言代理时面临的信用分配难题。随着检索技术从单次匹配向交互式推理演进,语言代理需要像人类研究者一样,逐步检查证据、重新表述查询并多次搜索,才能得出准确答案。然而,这种迭代推理过程带来了一个核心挑战:代理执行的可观察动作(如发送查询或生成摘要)可以直接由检索系统评估,但代理内部潜在的推理步骤(如如何分析证据、如何决定下一步查询)却无法直接观测,且只能间接影响未来的可执行动作。这种不对称性使得基于最终结果(如检索文档的相关性)的奖励分配变得不可靠,因为同样的最终奖励可能错误地归因于那些实际上并未促进检索成功的推理步骤。
RICE-PO框架的创新之处在于,它不需要额外的批评者模型,而是直接从代理与检索环境的交互中提取局部的学习信号。具体来说,RICE-PO首先识别代理在执行时不确定性较高的动作作为锚点,然后利用检索指标评估这些锚点动作的局部反事实分支(即如果代理做出不同决策会怎样),最后仅当推理步骤对动作的影响足够强且未来的残余效应稳定时,才将信用从动作传播回推理步骤。这种机制有效地防止了错误的归因,使得每一次信用更新都建立在坚实的因果证据之上。
研究团队在BRIGHT和BEIR两个检索基准上对RICE-PO进行了评估。结果显示,在相同检索系统设置下,RICE-PO一致优于传统的基于提示的代理方法和基于群体的强化学习基线。这些结果有力地表明,代理与环境的交互结构本身就可以为训练基于推理的检索代理提供丰富的监督信号,而无需依赖复杂的外部奖励建模。这项工作为下一代检索增强语言模型的训练开辟了新方向,尤其在需要多步推理和动态查询调整的应用场景(如问答、事实核查、知识发现)中具有重要潜力。