2026-06-01站内改写4 分钟阅读更新: 2026-06-01

智能体执行税：大模型在浏览器自动化中的真正瓶颈

在720次浏览器代理任务基准测试中发现，模型在结构化输出可靠性上的差异导致高达22.9%的执行税（浪费的推理调用占比）。Kimi K2.5实现零执行税，而Gemini 2.5 Flash在近五分之一的调用中出现JSON格式错误。这种执行开销不仅增加了成本，还放大了延迟和任务失败风险。

来源Fireworks AI Blog

智能体的执行税：为什么结构化输出可靠性比推理能力更重要

基础模型变得越来越聪明，在推理基准测试中表现出色，能编写流畅的代码，并通过专业考试。然而，当将它们放入智能体循环中——需要观察网页、做出决策并连续十次输出结构化操作时，它们将近一半的时间会失败。

Fireworks AI与Notte合作，对四个大语言模型进行了720次浏览器自动化任务测试，以找出原因。答案不是智能，而是执行：有一个模型近五分之一的LLM调用因输出格式错误（JSON）而必须重试，这一可靠性差距引发了更高的延迟、膨胀的成本和更低的成功率，即使该模型的原始推理能力具有竞争力。

他们将这种开销称为“智能体执行税”：浪费的推理与有效推理的比率。在基准测试中，表现最差的模型该税率为22.9%，而最佳模型为零。

在智能体系统中，可靠性的影响比智能本身放大得更快。获胜的模型并非那些推理得分最高的，而是那些始终可靠地执行指令、每次都以要求的格式输出的模型。在生产环境中，这种可靠性不仅受模型本身影响，还受到为其服务的推理基础设施——结构化输出一致性、延迟可预测性以及在重复智能体循环下的稳定执行能力——的制约。

以每天1万个智能体任务（一个适中的生产规模）为例，表现最差的模型因执行开销每年浪费超过4万美元在无价值的推理上。每token看起来更便宜的模型，一旦考虑重试、失败和膨胀的调用次数，每成功任务的成本可能更高。

执行税的定义与计算

一次浏览器智能体任务从外部看很简单：访问亚马逊、搜索商品、提取价格。但在内部，它是一个多步循环：观察页面 → LLM生成操作（JSON格式）→ 执行操作 → 观察新页面 → 重复。一个典型任务需要约10步。每一步都是一次LLM调用，必须返回有效的结构化输出，指定点击哪个元素、输入什么文本或提取什么数据。如果JSON格式错误，框架会重试。这种重试是隐藏的：不会在任务成功率或推理基准测试中显现，只有在你检测引擎本身时才能看到膨胀的调用次数、延迟和成本。

执行税的计算公式：(总推理调用次数 - 有效调用次数) / 有效调用次数。有效调用是指首次尝试就返回有效结构化输出的调用。税率衡量的是相对于所完成的有用工作，你多付了多少推理——每一个百分点都是花在无价值推理上的钱。

在我们的数据中，Kimi K2.5的有效调用为852次，总调用852次，税率为0.0%；GLM-5为869次有效调用，总884次，税率0.6%；MiniMax M2.5为815次有效调用，总828次，税率1.6%；Gemini 2.5 Flash为721次有效调用，总886次，税率22.9%。这意味着Gemini每产生1美元的有效推理，你就要额外支付23美分的浪费。

税收如何复合

执行税并非单次成本，它层层叠加：

Token税：格式错误响应浪费的Token，加上每次重试重新发送完整输入上下文的Token。Gemini平均每步输入15,482个Token，每次重试就为产生零输出而重新发送全部上下文。

延迟税：每次重试增加一次完整的LLM往返（Gemini中位数约2.5秒），每个任务约12秒的死时间。

级联税：第8步的重试可能导致智能体内部状态不同步，使下游步骤误解页面而失败——最难测量，但在规模上最危险。

通用公式：每任务预期重试次数 = 步数 × 重试率 / (1 - 重试率)。对于10步任务，Gemini的重试率为18.6%，预期重试约2.3次，每任务浪费约36,500个Token，死时间约5.7秒。

结构化输出可靠性：根本原因

执行税是镜头，而结构化输出可靠性是驱动因素，也是生产智能体中最未被充分报告的瓶颈之一。在本次基准测试中，Gemini 2.5 Flash的总LLM调用为886次，其中解析重试165次，重试率18.6%，每任务调用14.7次。而三个Fireworks模型（Kimi K2.5、GLM-5、MiniMax M2.5）在2564次调用中总共只有18次重试（0.7%）。

在一个10步的智能体任务中，至少一步需要重试的概率：Gemini为86.7%，MiniMax为14.9%，Kimi为0%。也就是说，使用Gemini，87%的任务会经历至少一次解析重试——这不是边缘情况，而是默认体验。Gemini每任务平均14.7次LLM调用，而Fireworks模型约10次，多余的约4.7次调用几乎全部是重试及其带来的下游步骤。

可靠性调整后准确率

原始任务准确率告诉你智能体成功多少次，但不考虑达到成功所需的成本。我们引入复合指标“可靠性调整后准确率”，用任务成功率乘以(1 - 执行税)。计算得出：GLM-5原始准确率57.1%，税后56.8%；MiniMax M2.5原始57.5%，税后56.6%；Kimi K2.5原始49.7%，税后49.7%；Gemini原始45.0%，税后34.7%。Gemini的原始准确率（45.0%）与可靠性调整后准确率（34.7%）之间的差距是最清晰的执行税说明：Gemini超过三分之一的操作容量被执行开销消耗。而Fireworks模型几乎不受影响。

为什么没人测量这个

解析重试发生在LLM引擎内部，智能体框架在得到结果之前从未见到它。除非你检测引擎，否则重试是不可见的。静态基准（MMLU、HumanEval、ARC）单独测量模型智能，它们不测量模型在多步循环中维持结构化输出合规性的能力。解析重试率应成为每个智能体基准测试中的一级指标。

实际案例

任务：“在芝加哥伊利诺伊州查找所有优衣库门店。”（Google Maps，来自WebVoyager基准）

Kimi K2.5：12步，12次LLM调用，0次解析重试，总时长51.2秒，LLM时间23.2秒，输入Token 87,063，输出Token 3,236。

Gemini 2.5 Flash：16步，25次LLM调用，9次解析重试，总时长97.9秒，LLM时间57.5秒，输入Token 207,971，输出Token 8,411。

两者都成功找到答案，但一个用51秒和12次干净调用完成，另一个用了98秒和25次调用——差异不在于推理能力，而在于执行开销。

部署就绪评分卡

本次基准测试为三种模型提供了决策指南：

GLM-5：准确率最高（57.1%），成本最高。适用于合规工作流、研究自动化和错误会带来下游后果的任务。
MiniMax M2.5：性价比最高。每成功任务成本最低（0.062美元，比Gemini便宜2.3倍）。RL训练的智能体，步骤最少（平均9.8步），极少重试（1.6%）。规模化生产工作负载的默认选择。每年4万美元的浪费计算使其在量级上成为经济主导选项。
Kimi K2.5：速度最快，零执行开销。LLM中位数延迟2.1秒，852次调用零解析重试。适用于面向客户的智能体、实时演示以及任何响应延迟影响用户信任的工作流。

结论

在智能体系统中，可靠性比智能本身更重要。结构化输出可靠性、执行税和每成功任务成本应成为模型选择和采购的核心指标。本次基准测试的完整数据和方法见附录。