AI News HubLIVE
站內改寫3 分鐘閱讀

Tokenmaxxing的終結

Tokenmaxxing(通過燒燬Token製造生產力假象)正逐漸消失,原因是個人和企業開始關注AI使用成本。GitHub Copilot改為按信用點收費,以及推理模型和代理的興起大幅增加了Token消耗。AI公司從快速增長轉向盈利,導致價格上升。Token優化和問責成為新常態。

來源O'Reilly AI & ML Radar作者: Mike Loukides

Tokenmaxxing(通過燒燬Token製造生產力假象)正在消亡,甚至在我有機會寫下它之前就已如此。謝天謝地。通過燃燒Token來營造生產力假象的做法註定只能持續到會計們瞭解它為止,而最嚴格的會計就是個人的支票簿。讓許多開發者思考AI成本的是GitHub Copilot使用費用的變化。Copilot的費用從每月無限使用的固定費用變為每月購買有限數量信用點(credit)的費用,這些信用點可用於支付你選擇的AI提供商。一個信用點相當於0.01美元;當你用完了信用點,你可以升級賬户或按需購買額外信用點。

問題不在於為什麼這沒有更早發生,而在於為什麼現在發生。Tokenmaxxing既是AI兩大趨勢的產物,也是其受害者。首先,從OpenAI開始,主要AI提供商都在玩一種閃電式擴張(blitzscaling)的遊戲,優先考慮用户增長而非盈利能力。免費提供AI服務可以吸引更多用户,從長遠來看,擴張者會找到通過終端用户費用、出售用户數據或廣告來賺錢的方式。這個過程不可避免地會導致服務惡化(enshittification),而我們仍然在這條路上。

其次,Token使用量在2025年末爆炸式增長。“推理模型”的出現,使用Token在解決問題過程中維持內部對話,增加了對每個提示響應的Token使用量。推理Token是模型對自己關於提示可能響應的對話,通常比提示和響應本身的數量還要多。無論用户是否看到推理過程(通常他們看不到),推理Token都會增加賬單。它們通常被算作“輸出Token”,因為它們由模型生成,並且比輸入Token更貴。

代理的出現也使Token消耗速度成倍增加。2025年5月,Simon Willison引用了Anthropic的Hannah Moran對代理的定義:“代理是使用工具在循環中的模型。”Tredence博客寫道:“代理循環是一個重複的週期,其中AI讀取當前數據,思考其含義,選擇行動,執行行動,檢查結果,然後重新開始。”如果你曾經看過Claude Code、OpenClaw或任何其他代理工作,一個單一請求可能變成對模型的多次調用,每次調用使用數百甚至數千個Token。除了當前請求外,一個代理生成的調用可能包含任務累積的全部上下文和相關文檔。在推理Token和代理之間,Token使用量增加了數百倍。

如果Token使用量的增加能導致問題被更有效地解決和任務完成,那可能不是問題。但它與閃電式擴張者的虧損定價策略相沖突;他們願意以虧損運營來獲得市場控制權,但這種意願是有限度的。無論AI用户數量是否在增加,每個用户的計算量(因此成本)隨着代理的使用而增長。推理模型增加了Token使用量;代理加劇了問題;這導致了價格上漲。1 Microsoft/GitHub不想支付Copilot客户的AI賬單。我們還沒有看到AI提供商全面提價。但我們看到了GitHub的Token信用點,也看到了Anthropic和OpenAI對更強大模型的定價顯著高於舊模型或較弱的模型。Fable的價格是Opus 4.8的兩倍,雖然有些作者稱這個定價“很棒”,但那可能是因為他們預期漲幅更大。雖然Fable可以將任務委託給Anthropic較便宜的模型,但大多數早期用户觀察到,使用Fable時Token使用量反而上升。Anthropic轉向基於Token的計費方式(目前暫停)是廉價AI時代即將結束的又一個信號。OpenAI的故事類似:GPT 5.5每百萬Token的價格是GPT 5.4的兩倍。

容量問題也很重要。大型數據中心雖然上了新聞,但這些數據中心尚未建成。更重要的是,支持這些數據中心所需的電力基礎設施——輸電線路、發電機——也尚未建成,而AI公司對此投資控制有限。他們可以在數據中心園區內建設自己的發電設施,但這需要對他們不熟悉的技術進行鉅額投資。即使本地發電,也需要其他基礎設施:煤炭的鐵路、天然氣的管道。這(目前)不是一篇關於數據中心電力消耗及其後果的文章,但它是限制Token使用量增加的另一個因素。我們看到Anthropic的停機歸咎於容量問題,而Anthropic通過租賃SpaceX未使用的數據中心容量來回應。但應對無法由當前容量滿足的需求增長的另一種方式是提高價格,將客户限制在有能力支付的人。這種價格上漲正被管理者、會計和獨立開發者注意到。

Token優化和問責是Token價格上漲的必然結果。建立問責制的一種方式是通過更好的治理,Bennie Haelen在“補貼結束了:使用工具的代理實際成本”一文中描述了這一點。更好的治理通過構建可觀察性層來實現,讓你能夠準確看到代理和模型正在做什麼。通過設計良好的可觀察性層,你可以看到每次調用發送給模型的數據是否在增長,模型是否在使用合適的工具,工具是否被重複調用,以及許多其他信息,這些信息會告訴你代理是否高效運行。

Token問責的另一個方面是理解哪些模型在處理你的代理請求。通用推理模型的範圍從昂貴的、高性能的模型(如Claude Fable或Opus 4.8)到可以在配置良好的筆記本上運行的模型(如Gemma 4 26B),甚至更小的模型。雖然很容易説“我需要最好的,我將運行Opus 4.8或Fable並開啓最大推理”,但大多數請求並不需要那種水平的推理或成本。代理將能夠決定哪個模型最適合處理每個請求。Fable可以委託,我們預計隨着模型整合代理能力,其他前沿提供商也會跟進。而前沿AI提供商之外還有一個活躍的開源模型世界。Vicki Boykis寫道,本地運行的模型現在幾乎和前沿模型一樣好。像OpenRouter這樣的工具提供了一種獨立於模型的方式將請求路由到不同的模型,包括本地運行的開源模型。OpenRouter可以與OpenClaw、Claude Code、Cursor、Codex等代理集成,提供智能路由。

Tokenmaxxing正在消亡。毫無疑問,它的殘餘需要時間才能消失,並且總會有開發者認為他們可以走捷徑獲得晉升,以及管理者堅持要“全力以赴”使用AI。但負責任地使用Token現在已成為常態,無論你是用個人支票簿還是公司賬户支付。隨着每次Token費用的增加,Token優化只會變得更加重要。它們無疑會。