AI News HubLIVE
站内改写4 分鐘閱讀

智能體執行税:大模型在瀏覽器自動化中的真正瓶頸

在720次瀏覽器代理任務基準測試中發現,模型在結構化輸出可靠性上的差異導致高達22.9%的執行税(浪費的推理調用佔比)。Kimi K2.5實現零執行税,而Gemini 2.5 Flash在近五分之一的調用中出現JSON格式錯誤。這種執行開銷不僅增加了成本,還放大了延遲和任務失敗風險。

智能體的執行税:為什麼結構化輸出可靠性比推理能力更重要

基礎模型變得越來越聰明,在推理基準測試中表現出色,能編寫流暢的代碼,並通過專業考試。然而,當將它們放入智能體循環中——需要觀察網頁、做出決策並連續十次輸出結構化操作時,它們將近一半的時間會失敗。

Fireworks AI與Notte合作,對四個大語言模型進行了720次瀏覽器自動化任務測試,以找出原因。答案不是智能,而是執行:有一個模型近五分之一的LLM調用因輸出格式錯誤(JSON)而必須重試,這一可靠性差距引發了更高的延遲、膨脹的成本和更低的成功率,即使該模型的原始推理能力具有競爭力。

他們將這種開銷稱為“智能體執行税”:浪費的推理與有效推理的比率。在基準測試中,表現最差的模型該税率為22.9%,而最佳模型為零。

在智能體系統中,可靠性的影響比智能本身放大得更快。獲勝的模型並非那些推理得分最高的,而是那些始終可靠地執行指令、每次都以要求的格式輸出的模型。在生產環境中,這種可靠性不僅受模型本身影響,還受到為其服務的推理基礎設施——結構化輸出一致性、延遲可預測性以及在重複智能體循環下的穩定執行能力——的制約。

以每天1萬個智能體任務(一個適中的生產規模)為例,表現最差的模型因執行開銷每年浪費超過4萬美元在無價值的推理上。每token看起來更便宜的模型,一旦考慮重試、失敗和膨脹的調用次數,每成功任務的成本可能更高。

執行税的定義與計算

一次瀏覽器智能體任務從外部看很簡單:訪問亞馬遜、搜索商品、提取價格。但在內部,它是一個多步循環:觀察頁面 → LLM生成操作(JSON格式)→ 執行操作 → 觀察新頁面 → 重複。一個典型任務需要約10步。每一步都是一次LLM調用,必須返回有效的結構化輸出,指定點擊哪個元素、輸入什麼文本或提取什麼數據。如果JSON格式錯誤,框架會重試。這種重試是隱藏的:不會在任務成功率或推理基準測試中顯現,只有在你檢測引擎本身時才能看到膨脹的調用次數、延遲和成本。

執行税的計算公式:(總推理調用次數 - 有效調用次數) / 有效調用次數。有效調用是指首次嘗試就返回有效結構化輸出的調用。税率衡量的是相對於所完成的有用工作,你多付了多少推理——每一個百分點都是花在無價值推理上的錢。

在我們的數據中,Kimi K2.5的有效調用為852次,總調用852次,税率為0.0%;GLM-5為869次有效調用,總884次,税率0.6%;MiniMax M2.5為815次有效調用,總828次,税率1.6%;Gemini 2.5 Flash為721次有效調用,總886次,税率22.9%。這意味着Gemini每產生1美元的有效推理,你就要額外支付23美分的浪費。

税收如何複合

執行税並非單次成本,它層層疊加:

Token税:格式錯誤響應浪費的Token,加上每次重試重新發送完整輸入上下文的Token。Gemini平均每步輸入15,482個Token,每次重試就為產生零輸出而重新發送全部上下文。

延遲税:每次重試增加一次完整的LLM往返(Gemini中位數約2.5秒),每個任務約12秒的死時間。

級聯税:第8步的重試可能導致智能體內部狀態不同步,使下游步驟誤解頁面而失敗——最難測量,但在規模上最危險。

通用公式:每任務預期重試次數 = 步數 × 重試率 / (1 - 重試率)。對於10步任務,Gemini的重試率為18.6%,預期重試約2.3次,每任務浪費約36,500個Token,死時間約5.7秒。

結構化輸出可靠性:根本原因

執行税是鏡頭,而結構化輸出可靠性是驅動因素,也是生產智能體中最未被充分報告的瓶頸之一。在本次基準測試中,Gemini 2.5 Flash的總LLM調用為886次,其中解析重試165次,重試率18.6%,每任務調用14.7次。而三個Fireworks模型(Kimi K2.5、GLM-5、MiniMax M2.5)在2564次調用中總共只有18次重試(0.7%)。

在一個10步的智能體任務中,至少一步需要重試的概率:Gemini為86.7%,MiniMax為14.9%,Kimi為0%。也就是説,使用Gemini,87%的任務會經歷至少一次解析重試——這不是邊緣情況,而是默認體驗。Gemini每任務平均14.7次LLM調用,而Fireworks模型約10次,多餘的約4.7次調用幾乎全部是重試及其帶來的下游步驟。

可靠性調整後準確率

原始任務準確率告訴你智能體成功多少次,但不考慮達到成功所需的成本。我們引入複合指標“可靠性調整後準確率”,用任務成功率乘以(1 - 執行税)。計算得出:GLM-5原始準確率57.1%,税後56.8%;MiniMax M2.5原始57.5%,税後56.6%;Kimi K2.5原始49.7%,税後49.7%;Gemini原始45.0%,税後34.7%。Gemini的原始準確率(45.0%)與可靠性調整後準確率(34.7%)之間的差距是最清晰的執行税説明:Gemini超過三分之一的操作容量被執行開銷消耗。而Fireworks模型幾乎不受影響。

為什麼沒人測量這個

解析重試發生在LLM引擎內部,智能體框架在得到結果之前從未見到它。除非你檢測引擎,否則重試是不可見的。靜態基準(MMLU、HumanEval、ARC)單獨測量模型智能,它們不測量模型在多步循環中維持結構化輸出合規性的能力。解析重試率應成為每個智能體基準測試中的一級指標。

實際案例

任務:“在芝加哥伊利諾伊州查找所有優衣庫門店。”(Google Maps,來自WebVoyager基準)

Kimi K2.5:12步,12次LLM調用,0次解析重試,總時長51.2秒,LLM時間23.2秒,輸入Token 87,063,輸出Token 3,236。

Gemini 2.5 Flash:16步,25次LLM調用,9次解析重試,總時長97.9秒,LLM時間57.5秒,輸入Token 207,971,輸出Token 8,411。

兩者都成功找到答案,但一個用51秒和12次乾淨調用完成,另一個用了98秒和25次調用——差異不在於推理能力,而在於執行開銷。

部署就緒評分卡

本次基準測試為三種模型提供了決策指南:

  • GLM-5:準確率最高(57.1%),成本最高。適用於合規工作流、研究自動化和錯誤會帶來下游後果的任務。
  • MiniMax M2.5:性價比最高。每成功任務成本最低(0.062美元,比Gemini便宜2.3倍)。RL訓練的智能體,步驟最少(平均9.8步),極少重試(1.6%)。規模化生產工作負載的默認選擇。每年4萬美元的浪費計算使其在量級上成為經濟主導選項。
  • Kimi K2.5:速度最快,零執行開銷。LLM中位數延遲2.1秒,852次調用零解析重試。適用於面向客户的智能體、實時演示以及任何響應延遲影響用户信任的工作流。

結論

在智能體系統中,可靠性比智能本身更重要。結構化輸出可靠性、執行税和每成功任務成本應成為模型選擇和採購的核心指標。本次基準測試的完整數據和方法見附錄。