PORTool:基于重要性感知和奖励树的多工具集成推理策略优化
苹果与普渡大学联合提出PORTool算法,通过生成奖励展开树和步骤级重要性估计,解决多工具推理中信用分配模糊问题,提升最终答案准确率并减少工具调用次数。
苹果机器学习研究团队与普渡大学合作,在ACL 2025第五届自然语言生成、评估与度量研讨会上发表了题为《PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning》的论文。该论文提出了一种名为PORTool的新型策略优化算法,专门用于提升大语言模型(LLM)在多工具集成推理场景中的性能。传统的训练方法通常仅依赖最终结果给予奖励,这导致了一个被称为信用分配模糊的问题——即难以确定中间步骤(尤其是工具调用决策)哪些对最终成功或失败起到了关键作用。PORTool通过引入步骤级别的奖励分配,有效克服了这一缺陷。
PORTool的核心创新在于生成一个“奖励展开树”(rewarded rollout tree)。在这个树结构中,多条推理轨迹在分支之前共享相同的前缀,从而允许在同一上下文中直接比较不同的工具使用决策。算法进一步通过正确性主导信号——即该步骤的后继步骤能否最终产生正确的答案——以及辅助的工具执行成功信号来估计每个步骤的重要性。基于这些步骤级别的重要性估计,PORTool通过局部比较(同一分支内的不同选择)和全局轨迹质量来更新策略,从而引导模型生成更高效的工具调用序列。
实验在多个基准任务上进行,结果显示PORTool不仅提高了最终答案的准确性,还显著减少了所需的工具调用步骤。与当前最先进的基线方法相比,PORTool在性能上均有提升,例如在数学推理和代码生成等任务中均表现出色,展示了其通用性。消融研究进一步证实了其步骤级重要性估计的鲁棒性。该研究的主要作者包括来自普渡大学的Feijie Wu和Jing Gao,以及其他来自苹果的研究人员。这项工作为多工具智能体的训练提供了新的方向,有望推动LLM在复杂工具使用任务中的广泛应用。PORTool的提出标志着在多工具推理策略优化领域迈出了重要一步,其重要性感知的奖励分配机制为未来研究提供了新的思路。