2026-07-01 00:06 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-01 00:26 UTC+8

Tokenmaxxing的終結

Tokenmaxxing（通過燒燬Token製造生產力假象）正逐漸消失，原因是個人和企業開始關注AI使用成本。GitHub Copilot改為按信用點收費，以及推理模型和代理的興起大幅增加了Token消耗。AI公司從快速增長轉向盈利，導致價格上升。Token優化和問責成為新常態。

來源O'Reilly AI & ML Radar作者: Mike Loukides

Tokenmaxxing（通過燒燬Token製造生產力假象）正在消亡，甚至在我有機會寫下它之前就已如此。謝天謝地。通過燃燒Token來營造生產力假象的做法註定只能持續到會計們瞭解它為止，而最嚴格的會計就是個人的支票簿。讓許多開發者思考AI成本的是GitHub Copilot使用費用的變化。Copilot的費用從每月無限使用的固定費用變為每月購買有限數量信用點（credit）的費用，這些信用點可用於支付你選擇的AI提供商。一個信用點相當於0.01美元；當你用完了信用點，你可以升級賬户或按需購買額外信用點。

問題不在於為什麼這沒有更早發生，而在於為什麼現在發生。Tokenmaxxing既是AI兩大趨勢的產物，也是其受害者。首先，從OpenAI開始，主要AI提供商都在玩一種閃電式擴張（blitzscaling）的遊戲，優先考慮用户增長而非盈利能力。免費提供AI服務可以吸引更多用户，從長遠來看，擴張者會找到通過終端用户費用、出售用户數據或廣告來賺錢的方式。這個過程不可避免地會導致服務惡化（enshittification），而我們仍然在這條路上。

其次，Token使用量在2025年末爆炸式增長。“推理模型”的出現，使用Token在解決問題過程中維持內部對話，增加了對每個提示響應的Token使用量。推理Token是模型對自己關於提示可能響應的對話，通常比提示和響應本身的數量還要多。無論用户是否看到推理過程（通常他們看不到），推理Token都會增加賬單。它們通常被算作“輸出Token”，因為它們由模型生成，並且比輸入Token更貴。

代理的出現也使Token消耗速度成倍增加。2025年5月，Simon Willison引用了Anthropic的Hannah Moran對代理的定義：“代理是使用工具在循環中的模型。”Tredence博客寫道：“代理循環是一個重複的週期，其中AI讀取當前數據，思考其含義，選擇行動，執行行動，檢查結果，然後重新開始。”如果你曾經看過Claude Code、OpenClaw或任何其他代理工作，一個單一請求可能變成對模型的多次調用，每次調用使用數百甚至數千個Token。除了當前請求外，一個代理生成的調用可能包含任務累積的全部上下文和相關文檔。在推理Token和代理之間，Token使用量增加了數百倍。

如果Token使用量的增加能導致問題被更有效地解決和任務完成，那可能不是問題。但它與閃電式擴張者的虧損定價策略相沖突；他們願意以虧損運營來獲得市場控制權，但這種意願是有限度的。無論AI用户數量是否在增加，每個用户的計算量（因此成本）隨着代理的使用而增長。推理模型增加了Token使用量；代理加劇了問題；這導致了價格上漲。1 Microsoft/GitHub不想支付Copilot客户的AI賬單。我們還沒有看到AI提供商全面提價。但我們看到了GitHub的Token信用點，也看到了Anthropic和OpenAI對更強大模型的定價顯著高於舊模型或較弱的模型。Fable的價格是Opus 4.8的兩倍，雖然有些作者稱這個定價“很棒”，但那可能是因為他們預期漲幅更大。雖然Fable可以將任務委託給Anthropic較便宜的模型，但大多數早期用户觀察到，使用Fable時Token使用量反而上升。Anthropic轉向基於Token的計費方式（目前暫停）是廉價AI時代即將結束的又一個信號。OpenAI的故事類似：GPT 5.5每百萬Token的價格是GPT 5.4的兩倍。

容量問題也很重要。大型數據中心雖然上了新聞，但這些數據中心尚未建成。更重要的是，支持這些數據中心所需的電力基礎設施——輸電線路、發電機——也尚未建成，而AI公司對此投資控制有限。他們可以在數據中心園區內建設自己的發電設施，但這需要對他們不熟悉的技術進行鉅額投資。即使本地發電，也需要其他基礎設施：煤炭的鐵路、天然氣的管道。這（目前）不是一篇關於數據中心電力消耗及其後果的文章，但它是限制Token使用量增加的另一個因素。我們看到Anthropic的停機歸咎於容量問題，而Anthropic通過租賃SpaceX未使用的數據中心容量來回應。但應對無法由當前容量滿足的需求增長的另一種方式是提高價格，將客户限制在有能力支付的人。這種價格上漲正被管理者、會計和獨立開發者注意到。

Token優化和問責是Token價格上漲的必然結果。建立問責制的一種方式是通過更好的治理，Bennie Haelen在“補貼結束了：使用工具的代理實際成本”一文中描述了這一點。更好的治理通過構建可觀察性層來實現，讓你能夠準確看到代理和模型正在做什麼。通過設計良好的可觀察性層，你可以看到每次調用發送給模型的數據是否在增長，模型是否在使用合適的工具，工具是否被重複調用，以及許多其他信息，這些信息會告訴你代理是否高效運行。

Token問責的另一個方面是理解哪些模型在處理你的代理請求。通用推理模型的範圍從昂貴的、高性能的模型（如Claude Fable或Opus 4.8）到可以在配置良好的筆記本上運行的模型（如Gemma 4 26B），甚至更小的模型。雖然很容易説“我需要最好的，我將運行Opus 4.8或Fable並開啓最大推理”，但大多數請求並不需要那種水平的推理或成本。代理將能夠決定哪個模型最適合處理每個請求。Fable可以委託，我們預計隨着模型整合代理能力，其他前沿提供商也會跟進。而前沿AI提供商之外還有一個活躍的開源模型世界。Vicki Boykis寫道，本地運行的模型現在幾乎和前沿模型一樣好。像OpenRouter這樣的工具提供了一種獨立於模型的方式將請求路由到不同的模型，包括本地運行的開源模型。OpenRouter可以與OpenClaw、Claude Code、Cursor、Codex等代理集成，提供智能路由。

Tokenmaxxing正在消亡。毫無疑問，它的殘餘需要時間才能消失，並且總會有開發者認為他們可以走捷徑獲得晉升，以及管理者堅持要“全力以赴”使用AI。但負責任地使用Token現在已成為常態，無論你是用個人支票簿還是公司賬户支付。隨着每次Token費用的增加，Token優化只會變得更加重要。它們無疑會。