2026-06-01站内改写4 分鐘閱讀更新: 2026-06-01

智能體執行税：大模型在瀏覽器自動化中的真正瓶頸

在720次瀏覽器代理任務基準測試中發現，模型在結構化輸出可靠性上的差異導致高達22.9%的執行税（浪費的推理調用佔比）。Kimi K2.5實現零執行税，而Gemini 2.5 Flash在近五分之一的調用中出現JSON格式錯誤。這種執行開銷不僅增加了成本，還放大了延遲和任務失敗風險。

來源Fireworks AI Blog

智能體的執行税：為什麼結構化輸出可靠性比推理能力更重要

基礎模型變得越來越聰明，在推理基準測試中表現出色，能編寫流暢的代碼，並通過專業考試。然而，當將它們放入智能體循環中——需要觀察網頁、做出決策並連續十次輸出結構化操作時，它們將近一半的時間會失敗。

Fireworks AI與Notte合作，對四個大語言模型進行了720次瀏覽器自動化任務測試，以找出原因。答案不是智能，而是執行：有一個模型近五分之一的LLM調用因輸出格式錯誤（JSON）而必須重試，這一可靠性差距引發了更高的延遲、膨脹的成本和更低的成功率，即使該模型的原始推理能力具有競爭力。

他們將這種開銷稱為“智能體執行税”：浪費的推理與有效推理的比率。在基準測試中，表現最差的模型該税率為22.9%，而最佳模型為零。

在智能體系統中，可靠性的影響比智能本身放大得更快。獲勝的模型並非那些推理得分最高的，而是那些始終可靠地執行指令、每次都以要求的格式輸出的模型。在生產環境中，這種可靠性不僅受模型本身影響，還受到為其服務的推理基礎設施——結構化輸出一致性、延遲可預測性以及在重複智能體循環下的穩定執行能力——的制約。

以每天1萬個智能體任務（一個適中的生產規模）為例，表現最差的模型因執行開銷每年浪費超過4萬美元在無價值的推理上。每token看起來更便宜的模型，一旦考慮重試、失敗和膨脹的調用次數，每成功任務的成本可能更高。

執行税的定義與計算

一次瀏覽器智能體任務從外部看很簡單：訪問亞馬遜、搜索商品、提取價格。但在內部，它是一個多步循環：觀察頁面 → LLM生成操作（JSON格式）→ 執行操作 → 觀察新頁面 → 重複。一個典型任務需要約10步。每一步都是一次LLM調用，必須返回有效的結構化輸出，指定點擊哪個元素、輸入什麼文本或提取什麼數據。如果JSON格式錯誤，框架會重試。這種重試是隱藏的：不會在任務成功率或推理基準測試中顯現，只有在你檢測引擎本身時才能看到膨脹的調用次數、延遲和成本。

執行税的計算公式：(總推理調用次數 - 有效調用次數) / 有效調用次數。有效調用是指首次嘗試就返回有效結構化輸出的調用。税率衡量的是相對於所完成的有用工作，你多付了多少推理——每一個百分點都是花在無價值推理上的錢。

在我們的數據中，Kimi K2.5的有效調用為852次，總調用852次，税率為0.0%；GLM-5為869次有效調用，總884次，税率0.6%；MiniMax M2.5為815次有效調用，總828次，税率1.6%；Gemini 2.5 Flash為721次有效調用，總886次，税率22.9%。這意味着Gemini每產生1美元的有效推理，你就要額外支付23美分的浪費。

税收如何複合

執行税並非單次成本，它層層疊加：

Token税：格式錯誤響應浪費的Token，加上每次重試重新發送完整輸入上下文的Token。Gemini平均每步輸入15,482個Token，每次重試就為產生零輸出而重新發送全部上下文。

延遲税：每次重試增加一次完整的LLM往返（Gemini中位數約2.5秒），每個任務約12秒的死時間。

級聯税：第8步的重試可能導致智能體內部狀態不同步，使下游步驟誤解頁面而失敗——最難測量，但在規模上最危險。

通用公式：每任務預期重試次數 = 步數 × 重試率 / (1 - 重試率)。對於10步任務，Gemini的重試率為18.6%，預期重試約2.3次，每任務浪費約36,500個Token，死時間約5.7秒。

結構化輸出可靠性：根本原因

執行税是鏡頭，而結構化輸出可靠性是驅動因素，也是生產智能體中最未被充分報告的瓶頸之一。在本次基準測試中，Gemini 2.5 Flash的總LLM調用為886次，其中解析重試165次，重試率18.6%，每任務調用14.7次。而三個Fireworks模型（Kimi K2.5、GLM-5、MiniMax M2.5）在2564次調用中總共只有18次重試（0.7%）。

在一個10步的智能體任務中，至少一步需要重試的概率：Gemini為86.7%，MiniMax為14.9%，Kimi為0%。也就是説，使用Gemini，87%的任務會經歷至少一次解析重試——這不是邊緣情況，而是默認體驗。Gemini每任務平均14.7次LLM調用，而Fireworks模型約10次，多餘的約4.7次調用幾乎全部是重試及其帶來的下游步驟。

可靠性調整後準確率

原始任務準確率告訴你智能體成功多少次，但不考慮達到成功所需的成本。我們引入複合指標“可靠性調整後準確率”，用任務成功率乘以(1 - 執行税)。計算得出：GLM-5原始準確率57.1%，税後56.8%；MiniMax M2.5原始57.5%，税後56.6%；Kimi K2.5原始49.7%，税後49.7%；Gemini原始45.0%，税後34.7%。Gemini的原始準確率（45.0%）與可靠性調整後準確率（34.7%）之間的差距是最清晰的執行税説明：Gemini超過三分之一的操作容量被執行開銷消耗。而Fireworks模型幾乎不受影響。

為什麼沒人測量這個

解析重試發生在LLM引擎內部，智能體框架在得到結果之前從未見到它。除非你檢測引擎，否則重試是不可見的。靜態基準（MMLU、HumanEval、ARC）單獨測量模型智能，它們不測量模型在多步循環中維持結構化輸出合規性的能力。解析重試率應成為每個智能體基準測試中的一級指標。

實際案例

任務：“在芝加哥伊利諾伊州查找所有優衣庫門店。”（Google Maps，來自WebVoyager基準）

Kimi K2.5：12步，12次LLM調用，0次解析重試，總時長51.2秒，LLM時間23.2秒，輸入Token 87,063，輸出Token 3,236。

Gemini 2.5 Flash：16步，25次LLM調用，9次解析重試，總時長97.9秒，LLM時間57.5秒，輸入Token 207,971，輸出Token 8,411。

兩者都成功找到答案，但一個用51秒和12次乾淨調用完成，另一個用了98秒和25次調用——差異不在於推理能力，而在於執行開銷。

部署就緒評分卡

本次基準測試為三種模型提供了決策指南：

GLM-5：準確率最高（57.1%），成本最高。適用於合規工作流、研究自動化和錯誤會帶來下游後果的任務。
MiniMax M2.5：性價比最高。每成功任務成本最低（0.062美元，比Gemini便宜2.3倍）。RL訓練的智能體，步驟最少（平均9.8步），極少重試（1.6%）。規模化生產工作負載的默認選擇。每年4萬美元的浪費計算使其在量級上成為經濟主導選項。
Kimi K2.5：速度最快，零執行開銷。LLM中位數延遲2.1秒，852次調用零解析重試。適用於面向客户的智能體、實時演示以及任何響應延遲影響用户信任的工作流。

結論

在智能體系統中，可靠性比智能本身更重要。結構化輸出可靠性、執行税和每成功任務成本應成為模型選擇和採購的核心指標。本次基準測試的完整數據和方法見附錄。