2026-06-01站内改写4 分鐘閱讀更新: 2026-06-01

智慧體執行稅：大模型在瀏覽器自動化中的真正瓶頸

在720次瀏覽器代理任務基準測試中發現，模型在結構化輸出可靠性上的差異導致高達22.9%的執行稅（浪費的推理呼叫佔比）。Kimi K2.5實現零執行稅，而Gemini 2.5 Flash在近五分之一的呼叫中出現JSON格式錯誤。這種執行開銷不僅增加了成本，還放大了延遲和任務失敗風險。

來源Fireworks AI Blog

智慧體的執行稅：為什麼結構化輸出可靠性比推理能力更重要

基礎模型變得越來越聰明，在推理基準測試中表現出色，能編寫流暢的程式碼，並透過專業考試。然而，當將它們放入智慧體迴圈中——需要觀察網頁、做出決策並連續十次輸出結構化操作時，它們將近一半的時間會失敗。

Fireworks AI與Notte合作，對四個大語言模型進行了720次瀏覽器自動化任務測試，以找出原因。答案不是智慧，而是執行：有一個模型近五分之一的LLM呼叫因輸出格式錯誤（JSON）而必須重試，這一可靠性差距引發了更高的延遲、膨脹的成本和更低的成功率，即使該模型的原始推理能力具有競爭力。

他們將這種開銷稱為“智慧體執行稅”：浪費的推理與有效推理的比率。在基準測試中，表現最差的模型該稅率為22.9%，而最佳模型為零。

在智慧體系統中，可靠性的影響比智慧本身放大得更快。獲勝的模型並非那些推理得分最高的，而是那些始終可靠地執行指令、每次都以要求的格式輸出的模型。在生產環境中，這種可靠性不僅受模型本身影響，還受到為其服務的推理基礎設施——結構化輸出一致性、延遲可預測性以及在重複智慧體迴圈下的穩定執行能力——的制約。

以每天1萬個智慧體任務（一個適中的生產規模）為例，表現最差的模型因執行開銷每年浪費超過4萬美元在無價值的推理上。每token看起來更便宜的模型，一旦考慮重試、失敗和膨脹的呼叫次數，每成功任務的成本可能更高。

執行稅的定義與計算

一次瀏覽器智慧體任務從外部看很簡單：訪問亞馬遜、搜尋商品、提取價格。但在內部，它是一個多步迴圈：觀察頁面 → LLM生成操作（JSON格式）→ 執行操作 → 觀察新頁面 → 重複。一個典型任務需要約10步。每一步都是一次LLM呼叫，必須返回有效的結構化輸出，指定點選哪個元素、輸入什麼文本或提取什麼資料。如果JSON格式錯誤，框架會重試。這種重試是隱藏的：不會在任務成功率或推理基準測試中顯現，只有在你檢測引擎本身時才能看到膨脹的呼叫次數、延遲和成本。

執行稅的計算公式：(總推理呼叫次數 - 有效呼叫次數) / 有效呼叫次數。有效呼叫是指首次嘗試就返回有效結構化輸出的呼叫。稅率衡量的是相對於所完成的有用工作，你多付了多少推理——每一個百分點都是花在無價值推理上的錢。

在我們的資料中，Kimi K2.5的有效呼叫為852次，總呼叫852次，稅率為0.0%；GLM-5為869次有效呼叫，總884次，稅率0.6%；MiniMax M2.5為815次有效呼叫，總828次，稅率1.6%；Gemini 2.5 Flash為721次有效呼叫，總886次，稅率22.9%。這意味著Gemini每產生1美元的有效推理，你就要額外支付23美分的浪費。

稅收如何複合

執行稅並非單次成本，它層層疊加：

Token稅：格式錯誤響應浪費的Token，加上每次重試重新傳送完整輸入上下文的Token。Gemini平均每步輸入15,482個Token，每次重試就為產生零輸出而重新傳送全部上下文。

延遲稅：每次重試增加一次完整的LLM往返（Gemini中位數約2.5秒），每個任務約12秒的死時間。

級聯稅：第8步的重試可能導致智慧體內部狀態不同步，使下游步驟誤解頁面而失敗——最難測量，但在規模上最危險。

通用公式：每任務預期重試次數 = 步數 × 重試率 / (1 - 重試率)。對於10步任務，Gemini的重試率為18.6%，預期重試約2.3次，每任務浪費約36,500個Token，死時間約5.7秒。

結構化輸出可靠性：根本原因

執行稅是鏡頭，而結構化輸出可靠性是驅動因素，也是生產智慧體中最未被充分報告的瓶頸之一。在本次基準測試中，Gemini 2.5 Flash的總LLM呼叫為886次，其中解析重試165次，重試率18.6%，每任務呼叫14.7次。而三個Fireworks模型（Kimi K2.5、GLM-5、MiniMax M2.5）在2564次呼叫中總共只有18次重試（0.7%）。

在一個10步的智慧體任務中，至少一步需要重試的機率：Gemini為86.7%，MiniMax為14.9%，Kimi為0%。也就是說，使用Gemini，87%的任務會經歷至少一次解析重試——這不是邊緣情況，而是預設體驗。Gemini每任務平均14.7次LLM呼叫，而Fireworks模型約10次，多餘的約4.7次呼叫幾乎全部是重試及其帶來的下游步驟。

可靠性調整後準確率

原始任務準確率告訴你智慧體成功多少次，但不考慮達到成功所需的成本。我們引入複合指標“可靠性調整後準確率”，用任務成功率乘以(1 - 執行稅)。計算得出：GLM-5原始準確率57.1%，稅後56.8%；MiniMax M2.5原始57.5%，稅後56.6%；Kimi K2.5原始49.7%，稅後49.7%；Gemini原始45.0%，稅後34.7%。Gemini的原始準確率（45.0%）與可靠性調整後準確率（34.7%）之間的差距是最清晰的執行稅說明：Gemini超過三分之一的操作容量被執行開銷消耗。而Fireworks模型幾乎不受影響。

為什麼沒人測量這個

解析重試發生在LLM引擎內部，智慧體框架在得到結果之前從未見到它。除非你檢測引擎，否則重試是不可見的。靜態基準（MMLU、HumanEval、ARC）單獨測量模型智慧，它們不測量模型在多步迴圈中維持結構化輸出合規性的能力。解析重試率應成為每個智慧體基準測試中的一級指標。

實際案例

任務：“在芝加哥伊利諾伊州查詢所有優衣庫門店。”（Google Maps，來自WebVoyager基準）

Kimi K2.5：12步，12次LLM呼叫，0次解析重試，總時長51.2秒，LLM時間23.2秒，輸入Token 87,063，輸出Token 3,236。

Gemini 2.5 Flash：16步，25次LLM呼叫，9次解析重試，總時長97.9秒，LLM時間57.5秒，輸入Token 207,971，輸出Token 8,411。

兩者都成功找到答案，但一個用51秒和12次乾淨呼叫完成，另一個用了98秒和25次呼叫——差異不在於推理能力，而在於執行開銷。

部署就緒評分卡

本次基準測試為三種模型提供了決策指南：

GLM-5：準確率最高（57.1%），成本最高。適用於合規工作流、研究自動化和錯誤會帶來下游後果的任務。
MiniMax M2.5：價效比最高。每成功任務成本最低（0.062美元，比Gemini便宜2.3倍）。RL訓練的智慧體，步驟最少（平均9.8步），極少重試（1.6%）。規模化生產工作負載的預設選擇。每年4萬美元的浪費計算使其在量級上成為經濟主導選項。
Kimi K2.5：速度最快，零執行開銷。LLM中位數延遲2.1秒，852次呼叫零解析重試。適用於面向客戶的智慧體、即時演示以及任何響應延遲影響使用者信任的工作流。

結論

在智慧體系統中，可靠性比智慧本身更重要。結構化輸出可靠性、執行稅和每成功任務成本應成為模型選擇和採購的核心指標。本次基準測試的完整資料和方法見附錄。