AI News HubLIVE
站内改写4 分钟阅读

智能体执行税:大模型在浏览器自动化中的真正瓶颈

在720次浏览器代理任务基准测试中发现,模型在结构化输出可靠性上的差异导致高达22.9%的执行税(浪费的推理调用占比)。Kimi K2.5实现零执行税,而Gemini 2.5 Flash在近五分之一的调用中出现JSON格式错误。这种执行开销不仅增加了成本,还放大了延迟和任务失败风险。

智能体的执行税:为什么结构化输出可靠性比推理能力更重要

基础模型变得越来越聪明,在推理基准测试中表现出色,能编写流畅的代码,并通过专业考试。然而,当将它们放入智能体循环中——需要观察网页、做出决策并连续十次输出结构化操作时,它们将近一半的时间会失败。

Fireworks AI与Notte合作,对四个大语言模型进行了720次浏览器自动化任务测试,以找出原因。答案不是智能,而是执行:有一个模型近五分之一的LLM调用因输出格式错误(JSON)而必须重试,这一可靠性差距引发了更高的延迟、膨胀的成本和更低的成功率,即使该模型的原始推理能力具有竞争力。

他们将这种开销称为“智能体执行税”:浪费的推理与有效推理的比率。在基准测试中,表现最差的模型该税率为22.9%,而最佳模型为零。

在智能体系统中,可靠性的影响比智能本身放大得更快。获胜的模型并非那些推理得分最高的,而是那些始终可靠地执行指令、每次都以要求的格式输出的模型。在生产环境中,这种可靠性不仅受模型本身影响,还受到为其服务的推理基础设施——结构化输出一致性、延迟可预测性以及在重复智能体循环下的稳定执行能力——的制约。

以每天1万个智能体任务(一个适中的生产规模)为例,表现最差的模型因执行开销每年浪费超过4万美元在无价值的推理上。每token看起来更便宜的模型,一旦考虑重试、失败和膨胀的调用次数,每成功任务的成本可能更高。

执行税的定义与计算

一次浏览器智能体任务从外部看很简单:访问亚马逊、搜索商品、提取价格。但在内部,它是一个多步循环:观察页面 → LLM生成操作(JSON格式)→ 执行操作 → 观察新页面 → 重复。一个典型任务需要约10步。每一步都是一次LLM调用,必须返回有效的结构化输出,指定点击哪个元素、输入什么文本或提取什么数据。如果JSON格式错误,框架会重试。这种重试是隐藏的:不会在任务成功率或推理基准测试中显现,只有在你检测引擎本身时才能看到膨胀的调用次数、延迟和成本。

执行税的计算公式:(总推理调用次数 - 有效调用次数) / 有效调用次数。有效调用是指首次尝试就返回有效结构化输出的调用。税率衡量的是相对于所完成的有用工作,你多付了多少推理——每一个百分点都是花在无价值推理上的钱。

在我们的数据中,Kimi K2.5的有效调用为852次,总调用852次,税率为0.0%;GLM-5为869次有效调用,总884次,税率0.6%;MiniMax M2.5为815次有效调用,总828次,税率1.6%;Gemini 2.5 Flash为721次有效调用,总886次,税率22.9%。这意味着Gemini每产生1美元的有效推理,你就要额外支付23美分的浪费。

税收如何复合

执行税并非单次成本,它层层叠加:

Token税:格式错误响应浪费的Token,加上每次重试重新发送完整输入上下文的Token。Gemini平均每步输入15,482个Token,每次重试就为产生零输出而重新发送全部上下文。

延迟税:每次重试增加一次完整的LLM往返(Gemini中位数约2.5秒),每个任务约12秒的死时间。

级联税:第8步的重试可能导致智能体内部状态不同步,使下游步骤误解页面而失败——最难测量,但在规模上最危险。

通用公式:每任务预期重试次数 = 步数 × 重试率 / (1 - 重试率)。对于10步任务,Gemini的重试率为18.6%,预期重试约2.3次,每任务浪费约36,500个Token,死时间约5.7秒。

结构化输出可靠性:根本原因

执行税是镜头,而结构化输出可靠性是驱动因素,也是生产智能体中最未被充分报告的瓶颈之一。在本次基准测试中,Gemini 2.5 Flash的总LLM调用为886次,其中解析重试165次,重试率18.6%,每任务调用14.7次。而三个Fireworks模型(Kimi K2.5、GLM-5、MiniMax M2.5)在2564次调用中总共只有18次重试(0.7%)。

在一个10步的智能体任务中,至少一步需要重试的概率:Gemini为86.7%,MiniMax为14.9%,Kimi为0%。也就是说,使用Gemini,87%的任务会经历至少一次解析重试——这不是边缘情况,而是默认体验。Gemini每任务平均14.7次LLM调用,而Fireworks模型约10次,多余的约4.7次调用几乎全部是重试及其带来的下游步骤。

可靠性调整后准确率

原始任务准确率告诉你智能体成功多少次,但不考虑达到成功所需的成本。我们引入复合指标“可靠性调整后准确率”,用任务成功率乘以(1 - 执行税)。计算得出:GLM-5原始准确率57.1%,税后56.8%;MiniMax M2.5原始57.5%,税后56.6%;Kimi K2.5原始49.7%,税后49.7%;Gemini原始45.0%,税后34.7%。Gemini的原始准确率(45.0%)与可靠性调整后准确率(34.7%)之间的差距是最清晰的执行税说明:Gemini超过三分之一的操作容量被执行开销消耗。而Fireworks模型几乎不受影响。

为什么没人测量这个

解析重试发生在LLM引擎内部,智能体框架在得到结果之前从未见到它。除非你检测引擎,否则重试是不可见的。静态基准(MMLU、HumanEval、ARC)单独测量模型智能,它们不测量模型在多步循环中维持结构化输出合规性的能力。解析重试率应成为每个智能体基准测试中的一级指标。

实际案例

任务:“在芝加哥伊利诺伊州查找所有优衣库门店。”(Google Maps,来自WebVoyager基准)

Kimi K2.5:12步,12次LLM调用,0次解析重试,总时长51.2秒,LLM时间23.2秒,输入Token 87,063,输出Token 3,236。

Gemini 2.5 Flash:16步,25次LLM调用,9次解析重试,总时长97.9秒,LLM时间57.5秒,输入Token 207,971,输出Token 8,411。

两者都成功找到答案,但一个用51秒和12次干净调用完成,另一个用了98秒和25次调用——差异不在于推理能力,而在于执行开销。

部署就绪评分卡

本次基准测试为三种模型提供了决策指南:

  • GLM-5:准确率最高(57.1%),成本最高。适用于合规工作流、研究自动化和错误会带来下游后果的任务。
  • MiniMax M2.5:性价比最高。每成功任务成本最低(0.062美元,比Gemini便宜2.3倍)。RL训练的智能体,步骤最少(平均9.8步),极少重试(1.6%)。规模化生产工作负载的默认选择。每年4万美元的浪费计算使其在量级上成为经济主导选项。
  • Kimi K2.5:速度最快,零执行开销。LLM中位数延迟2.1秒,852次调用零解析重试。适用于面向客户的智能体、实时演示以及任何响应延迟影响用户信任的工作流。

结论

在智能体系统中,可靠性比智能本身更重要。结构化输出可靠性、执行税和每成功任务成本应成为模型选择和采购的核心指标。本次基准测试的完整数据和方法见附录。