AI News HubLIVE
站内改写4 分鐘閱讀

智慧體執行稅:大模型在瀏覽器自動化中的真正瓶頸

在720次瀏覽器代理任務基準測試中發現,模型在結構化輸出可靠性上的差異導致高達22.9%的執行稅(浪費的推理呼叫佔比)。Kimi K2.5實現零執行稅,而Gemini 2.5 Flash在近五分之一的呼叫中出現JSON格式錯誤。這種執行開銷不僅增加了成本,還放大了延遲和任務失敗風險。

智慧體的執行稅:為什麼結構化輸出可靠性比推理能力更重要

基礎模型變得越來越聰明,在推理基準測試中表現出色,能編寫流暢的程式碼,並透過專業考試。然而,當將它們放入智慧體迴圈中——需要觀察網頁、做出決策並連續十次輸出結構化操作時,它們將近一半的時間會失敗。

Fireworks AI與Notte合作,對四個大語言模型進行了720次瀏覽器自動化任務測試,以找出原因。答案不是智慧,而是執行:有一個模型近五分之一的LLM呼叫因輸出格式錯誤(JSON)而必須重試,這一可靠性差距引發了更高的延遲、膨脹的成本和更低的成功率,即使該模型的原始推理能力具有競爭力。

他們將這種開銷稱為“智慧體執行稅”:浪費的推理與有效推理的比率。在基準測試中,表現最差的模型該稅率為22.9%,而最佳模型為零。

在智慧體系統中,可靠性的影響比智慧本身放大得更快。獲勝的模型並非那些推理得分最高的,而是那些始終可靠地執行指令、每次都以要求的格式輸出的模型。在生產環境中,這種可靠性不僅受模型本身影響,還受到為其服務的推理基礎設施——結構化輸出一致性、延遲可預測性以及在重複智慧體迴圈下的穩定執行能力——的制約。

以每天1萬個智慧體任務(一個適中的生產規模)為例,表現最差的模型因執行開銷每年浪費超過4萬美元在無價值的推理上。每token看起來更便宜的模型,一旦考慮重試、失敗和膨脹的呼叫次數,每成功任務的成本可能更高。

執行稅的定義與計算

一次瀏覽器智慧體任務從外部看很簡單:訪問亞馬遜、搜尋商品、提取價格。但在內部,它是一個多步迴圈:觀察頁面 → LLM生成操作(JSON格式)→ 執行操作 → 觀察新頁面 → 重複。一個典型任務需要約10步。每一步都是一次LLM呼叫,必須返回有效的結構化輸出,指定點選哪個元素、輸入什麼文本或提取什麼資料。如果JSON格式錯誤,框架會重試。這種重試是隱藏的:不會在任務成功率或推理基準測試中顯現,只有在你檢測引擎本身時才能看到膨脹的呼叫次數、延遲和成本。

執行稅的計算公式:(總推理呼叫次數 - 有效呼叫次數) / 有效呼叫次數。有效呼叫是指首次嘗試就返回有效結構化輸出的呼叫。稅率衡量的是相對於所完成的有用工作,你多付了多少推理——每一個百分點都是花在無價值推理上的錢。

在我們的資料中,Kimi K2.5的有效呼叫為852次,總呼叫852次,稅率為0.0%;GLM-5為869次有效呼叫,總884次,稅率0.6%;MiniMax M2.5為815次有效呼叫,總828次,稅率1.6%;Gemini 2.5 Flash為721次有效呼叫,總886次,稅率22.9%。這意味著Gemini每產生1美元的有效推理,你就要額外支付23美分的浪費。

稅收如何複合

執行稅並非單次成本,它層層疊加:

Token稅:格式錯誤響應浪費的Token,加上每次重試重新傳送完整輸入上下文的Token。Gemini平均每步輸入15,482個Token,每次重試就為產生零輸出而重新傳送全部上下文。

延遲稅:每次重試增加一次完整的LLM往返(Gemini中位數約2.5秒),每個任務約12秒的死時間。

級聯稅:第8步的重試可能導致智慧體內部狀態不同步,使下游步驟誤解頁面而失敗——最難測量,但在規模上最危險。

通用公式:每任務預期重試次數 = 步數 × 重試率 / (1 - 重試率)。對於10步任務,Gemini的重試率為18.6%,預期重試約2.3次,每任務浪費約36,500個Token,死時間約5.7秒。

結構化輸出可靠性:根本原因

執行稅是鏡頭,而結構化輸出可靠性是驅動因素,也是生產智慧體中最未被充分報告的瓶頸之一。在本次基準測試中,Gemini 2.5 Flash的總LLM呼叫為886次,其中解析重試165次,重試率18.6%,每任務呼叫14.7次。而三個Fireworks模型(Kimi K2.5、GLM-5、MiniMax M2.5)在2564次呼叫中總共只有18次重試(0.7%)。

在一個10步的智慧體任務中,至少一步需要重試的機率:Gemini為86.7%,MiniMax為14.9%,Kimi為0%。也就是說,使用Gemini,87%的任務會經歷至少一次解析重試——這不是邊緣情況,而是預設體驗。Gemini每任務平均14.7次LLM呼叫,而Fireworks模型約10次,多餘的約4.7次呼叫幾乎全部是重試及其帶來的下游步驟。

可靠性調整後準確率

原始任務準確率告訴你智慧體成功多少次,但不考慮達到成功所需的成本。我們引入複合指標“可靠性調整後準確率”,用任務成功率乘以(1 - 執行稅)。計算得出:GLM-5原始準確率57.1%,稅後56.8%;MiniMax M2.5原始57.5%,稅後56.6%;Kimi K2.5原始49.7%,稅後49.7%;Gemini原始45.0%,稅後34.7%。Gemini的原始準確率(45.0%)與可靠性調整後準確率(34.7%)之間的差距是最清晰的執行稅說明:Gemini超過三分之一的操作容量被執行開銷消耗。而Fireworks模型幾乎不受影響。

為什麼沒人測量這個

解析重試發生在LLM引擎內部,智慧體框架在得到結果之前從未見到它。除非你檢測引擎,否則重試是不可見的。靜態基準(MMLU、HumanEval、ARC)單獨測量模型智慧,它們不測量模型在多步迴圈中維持結構化輸出合規性的能力。解析重試率應成為每個智慧體基準測試中的一級指標。

實際案例

任務:“在芝加哥伊利諾伊州查詢所有優衣庫門店。”(Google Maps,來自WebVoyager基準)

Kimi K2.5:12步,12次LLM呼叫,0次解析重試,總時長51.2秒,LLM時間23.2秒,輸入Token 87,063,輸出Token 3,236。

Gemini 2.5 Flash:16步,25次LLM呼叫,9次解析重試,總時長97.9秒,LLM時間57.5秒,輸入Token 207,971,輸出Token 8,411。

兩者都成功找到答案,但一個用51秒和12次乾淨呼叫完成,另一個用了98秒和25次呼叫——差異不在於推理能力,而在於執行開銷。

部署就緒評分卡

本次基準測試為三種模型提供了決策指南:

  • GLM-5:準確率最高(57.1%),成本最高。適用於合規工作流、研究自動化和錯誤會帶來下游後果的任務。
  • MiniMax M2.5:價效比最高。每成功任務成本最低(0.062美元,比Gemini便宜2.3倍)。RL訓練的智慧體,步驟最少(平均9.8步),極少重試(1.6%)。規模化生產工作負載的預設選擇。每年4萬美元的浪費計算使其在量級上成為經濟主導選項。
  • Kimi K2.5:速度最快,零執行開銷。LLM中位數延遲2.1秒,852次呼叫零解析重試。適用於面向客戶的智慧體、即時演示以及任何響應延遲影響使用者信任的工作流。

結論

在智慧體系統中,可靠性比智慧本身更重要。結構化輸出可靠性、執行稅和每成功任務成本應成為模型選擇和採購的核心指標。本次基準測試的完整資料和方法見附錄。