2026-06-03 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

自适应潜体代理推理

针对大型语言模型代理在决策步骤中生成冗长文本推理的无效性，研究人员提出了自适应潜体代理推理（ALAR）框架。该框架采用双模式机制：常规步骤使用紧凑潜体推理，仅在需要深入思考时切换到显式链式思维。实验表明，ALAR在搜索任务中减少高达43.6%的令牌生成，在工具使用中减少84.6%，同时保持可比甚至更好的任务准确性。

来源arXiv Computational Linguistics作者: Dongwon Jung, Peng Shi, Yi Zhang, Junshan Zhang, Muhao Chen

大型推理模型通过生成扩展的链式思维（CoT）推理来提升性能，然而当这种模式应用于LLM代理时，却显现出显著的效率问题。当前的多轮代理交互中，代理在每个决策步骤都会生成冗长的文本推理，且推理努力几乎均匀分布在所有回合中，导致令牌和计算资源的严重浪费。例如，在复杂的搜索任务中，代理可能需要在每一步都详细阐述其思考过程，即使对于简单的查询也是如此。这种均匀分配推理努力的方式忽略了任务内部的不均匀难度，造成了不必要的开销。

针对这一瓶颈，研究团队提出了一种名为自适应潜体代理推理（Adaptive Latent Agentic Reasoning，简称ALAR）的创新框架。ALAR采用双模式工作机制：对于常规性、低复杂度的决策步骤，系统使用紧凑的潜体推理，即在不生成显式文本的情况下进行内部计算；仅在遇到需要深入思考的困难决策时，才选择性升级到显式的链式思维推理。这种机制的核心在于利用代理的动作作为监督锚点来学习潜体推理，并通过优化策略确保在潜体推理足以完成任务时优先使用，从而保留显式推理用于更关键的环节。具体而言，ALAR通过一个门控机制动态决定是否在当前步骤采用潜体推理或显式CoT。该门控机制基于当前状态和任务上下文，经过训练以最小化整体令牌消耗同时保证任务成功率。

研究人员在代理搜索和工具使用基准上对ALAR进行了广泛测试。代理搜索基准涉及多轮信息检索和答案合成，而工具使用基准要求代理调用多个外部API完成任务。结果显示，与基线方法相比，ALAR在搜索任务中减少了高达43.6%的生成令牌，在工具使用任务中减少了84.6%，同时任务准确性未出现下降，甚至在某些场景下有所提升。例如，在复杂工具组合任务中，ALAR的准确率比纯CoT方法高出2-3个百分点，同时大幅降低了成本。这一结果表明，ALAR通过减少不必要的文本推理，同时保留关键步骤的显式思考，有效地改善了LLM代理的准确性与效率之间的平衡。

该工作的意义在于为构建更高效的AI代理系统提供了新思路，尤其适用于需要多轮交互的复杂任务场景，如自动化搜索、工具组合和对话系统。ALAR的潜力不仅限于论文中测试的任务，还可以扩展到其他需要多步决策的领域，例如机器人控制或游戏AI。未来，研究团队计划进一步探索潜体推理的可解释性及其在更广泛智能体应用中的潜力。此外，他们希望将ALAR集成到现有的LLM代理框架中，如ReAct或Toolformer，以提升其实际部署中的效率。总体而言，ALAR为实现更加经济且高效的AI代理迈出了重要一步。