Tokenmaxxing的終結
Tokenmaxxing(透過燒燬Token製造生產力假象)正逐漸消失,原因是個人和企業開始關注AI使用成本。GitHub Copilot改為按信用點收費,以及推理模型和代理的興起大幅增加了Token消耗。AI公司從快速增長轉向盈利,導致價格上升。Token最佳化和問責成為新常態。
Tokenmaxxing(透過燒燬Token製造生產力假象)正在消亡,甚至在我有機會寫下它之前就已如此。謝天謝地。透過燃燒Token來營造生產力假象的做法註定只能持續到會計們瞭解它為止,而最嚴格的會計就是個人的支票簿。讓許多開發者思考AI成本的是GitHub Copilot使用費用的變化。Copilot的費用從每月無限使用的固定費用變為每月購買有限數量信用點(credit)的費用,這些信用點可用於支付你選擇的AI提供商。一個信用點相當於0.01美元;當你用完了信用點,你可以升級賬戶或按需購買額外信用點。
問題不在於為什麼這沒有更早發生,而在於為什麼現在發生。Tokenmaxxing既是AI兩大趨勢的產物,也是其受害者。首先,從OpenAI開始,主要AI提供商都在玩一種閃電式擴張(blitzscaling)的遊戲,優先考慮使用者增長而非盈利能力。免費提供AI服務可以吸引更多使用者,從長遠來看,擴張者會找到透過終端使用者費用、出售使用者資料或廣告來賺錢的方式。這個過程不可避免地會導致服務惡化(enshittification),而我們仍然在這條路上。
其次,Token使用量在2025年末爆炸式增長。“推理模型”的出現,使用Token在解決問題過程中維持內部對話,增加了對每個提示響應的Token使用量。推理Token是模型對自己關於提示可能響應的對話,通常比提示和響應本身的數量還要多。無論使用者是否看到推理過程(通常他們看不到),推理Token都會增加賬單。它們通常被算作“輸出Token”,因為它們由模型生成,並且比輸入Token更貴。
代理的出現也使Token消耗速度成倍增加。2025年5月,Simon Willison引用了Anthropic的Hannah Moran對代理的定義:“代理是使用工具在迴圈中的模型。”Tredence部落格寫道:“代理迴圈是一個重複的週期,其中AI讀取當前資料,思考其含義,選擇行動,執行行動,檢查結果,然後重新開始。”如果你曾經看過Claude Code、OpenClaw或任何其他代理工作,一個單一請求可能變成對模型的多次呼叫,每次呼叫使用數百甚至數千個Token。除了當前請求外,一個代理生成的呼叫可能包含任務累積的全部上下文和相關文件。在推理Token和代理之間,Token使用量增加了數百倍。
如果Token使用量的增加能導致問題被更有效地解決和任務完成,那可能不是問題。但它與閃電式擴張者的虧損定價策略相沖突;他們願意以虧損運營來獲得市場控制權,但這種意願是有限度的。無論AI使用者數量是否在增加,每個使用者的計算量(因此成本)隨著代理的使用而增長。推理模型增加了Token使用量;代理加劇了問題;這導致了價格上漲。1 Microsoft/GitHub不想支付Copilot客戶的AI賬單。我們還沒有看到AI提供商全面提價。但我們看到了GitHub的Token信用點,也看到了Anthropic和OpenAI對更強大模型的定價顯著高於舊模型或較弱的模型。Fable的價格是Opus 4.8的兩倍,雖然有些作者稱這個定價“很棒”,但那可能是因為他們預期漲幅更大。雖然Fable可以將任務委託給Anthropic較便宜的模型,但大多數早期使用者觀察到,使用Fable時Token使用量反而上升。Anthropic轉向基於Token的計費方式(目前暫停)是廉價AI時代即將結束的又一個訊號。OpenAI的故事類似:GPT 5.5每百萬Token的價格是GPT 5.4的兩倍。
容量問題也很重要。大型資料中心雖然上了新聞,但這些資料中心尚未建成。更重要的是,支援這些資料中心所需的電力基礎設施——輸電線路、發電機——也尚未建成,而AI公司對此投資控制有限。他們可以在資料中心園區內建設自己的發電設施,但這需要對他們不熟悉的技術進行鉅額投資。即使本地發電,也需要其他基礎設施:煤炭的鐵路、天然氣的管道。這(目前)不是一篇關於資料中心電力消耗及其後果的文章,但它是限制Token使用量增加的另一個因素。我們看到Anthropic的停機歸咎於容量問題,而Anthropic透過租賃SpaceX未使用的資料中心容量來回應。但應對無法由當前容量滿足的需求增長的另一種方式是提高價格,將客戶限制在有能力支付的人。這種價格上漲正被管理者、會計和獨立開發者注意到。
Token最佳化和問責是Token價格上漲的必然結果。建立問責制的一種方式是透過更好的治理,Bennie Haelen在“補貼結束了:使用工具的代理實際成本”一文中描述了這一點。更好的治理透過構建可觀察性層來實現,讓你能夠準確看到代理和模型正在做什麼。透過設計良好的可觀察性層,你可以看到每次呼叫傳送給模型的資料是否在增長,模型是否在使用合適的工具,工具是否被重複呼叫,以及許多其他資訊,這些資訊會告訴你代理是否高效執行。
Token問責的另一個方面是理解哪些模型在處理你的代理請求。通用推理模型的範圍從昂貴的、高效能的模型(如Claude Fable或Opus 4.8)到可以在配置良好的筆記本上執行的模型(如Gemma 4 26B),甚至更小的模型。雖然很容易說“我需要最好的,我將執行Opus 4.8或Fable並開啟最大推理”,但大多數請求並不需要那種水平的推理或成本。代理將能夠決定哪個模型最適合處理每個請求。Fable可以委託,我們預計隨著模型整合代理能力,其他前沿提供商也會跟進。而前沿AI提供商之外還有一個活躍的開源模型世界。Vicki Boykis寫道,本地執行的模型現在幾乎和前沿模型一樣好。像OpenRouter這樣的工具提供了一種獨立於模型的方式將請求路由到不同的模型,包括本地執行的開源模型。OpenRouter可以與OpenClaw、Claude Code、Cursor、Codex等代理整合,提供智慧路由。
Tokenmaxxing正在消亡。毫無疑問,它的殘餘需要時間才能消失,並且總會有開發者認為他們可以走捷徑獲得晉升,以及管理者堅持要“全力以赴”使用AI。但負責任地使用Token現在已成為常態,無論你是用個人支票簿還是公司賬戶支付。隨著每次Token費用的增加,Token最佳化只會變得更加重要。它們無疑會。