2026-05-04 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

PORTool：基于重要性感知和奖励树的多工具集成推理策略优化

苹果与普渡大学联合提出PORTool算法，通过生成奖励展开树和步骤级重要性估计，解决多工具推理中信用分配模糊问题，提升最终答案准确率并减少工具调用次数。

苹果机器学习研究团队与普渡大学合作，在ACL 2025第五届自然语言生成、评估与度量研讨会上发表了题为《PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning》的论文。该论文提出了一种名为PORTool的新型策略优化算法，专门用于提升大语言模型（LLM）在多工具集成推理场景中的性能。传统的训练方法通常仅依赖最终结果给予奖励，这导致了一个被称为信用分配模糊的问题——即难以确定中间步骤（尤其是工具调用决策）哪些对最终成功或失败起到了关键作用。PORTool通过引入步骤级别的奖励分配，有效克服了这一缺陷。

PORTool的核心创新在于生成一个“奖励展开树”（rewarded rollout tree）。在这个树结构中，多条推理轨迹在分支之前共享相同的前缀，从而允许在同一上下文中直接比较不同的工具使用决策。算法进一步通过正确性主导信号——即该步骤的后继步骤能否最终产生正确的答案——以及辅助的工具执行成功信号来估计每个步骤的重要性。基于这些步骤级别的重要性估计，PORTool通过局部比较（同一分支内的不同选择）和全局轨迹质量来更新策略，从而引导模型生成更高效的工具调用序列。

实验在多个基准任务上进行，结果显示PORTool不仅提高了最终答案的准确性，还显著减少了所需的工具调用步骤。与当前最先进的基线方法相比，PORTool在性能上均有提升，例如在数学推理和代码生成等任务中均表现出色，展示了其通用性。消融研究进一步证实了其步骤级重要性估计的鲁棒性。该研究的主要作者包括来自普渡大学的Feijie Wu和Jing Gao，以及其他来自苹果的研究人员。这项工作为多工具智能体的训练提供了新的方向，有望推动LLM在复杂工具使用任务中的广泛应用。PORTool的提出标志着在多工具推理策略优化领域迈出了重要一步，其重要性感知的奖励分配机制为未来研究提供了新的思路。