2026-07-01 00:06 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-01 00:26 UTC+8

Tokenmaxxing的終結

Tokenmaxxing（透過燒燬Token製造生產力假象）正逐漸消失，原因是個人和企業開始關注AI使用成本。GitHub Copilot改為按信用點收費，以及推理模型和代理的興起大幅增加了Token消耗。AI公司從快速增長轉向盈利，導致價格上升。Token最佳化和問責成為新常態。

來源O'Reilly AI & ML Radar作者: Mike Loukides

Tokenmaxxing（透過燒燬Token製造生產力假象）正在消亡，甚至在我有機會寫下它之前就已如此。謝天謝地。透過燃燒Token來營造生產力假象的做法註定只能持續到會計們瞭解它為止，而最嚴格的會計就是個人的支票簿。讓許多開發者思考AI成本的是GitHub Copilot使用費用的變化。Copilot的費用從每月無限使用的固定費用變為每月購買有限數量信用點（credit）的費用，這些信用點可用於支付你選擇的AI提供商。一個信用點相當於0.01美元；當你用完了信用點，你可以升級賬戶或按需購買額外信用點。

問題不在於為什麼這沒有更早發生，而在於為什麼現在發生。Tokenmaxxing既是AI兩大趨勢的產物，也是其受害者。首先，從OpenAI開始，主要AI提供商都在玩一種閃電式擴張（blitzscaling）的遊戲，優先考慮使用者增長而非盈利能力。免費提供AI服務可以吸引更多使用者，從長遠來看，擴張者會找到透過終端使用者費用、出售使用者資料或廣告來賺錢的方式。這個過程不可避免地會導致服務惡化（enshittification），而我們仍然在這條路上。

其次，Token使用量在2025年末爆炸式增長。“推理模型”的出現，使用Token在解決問題過程中維持內部對話，增加了對每個提示響應的Token使用量。推理Token是模型對自己關於提示可能響應的對話，通常比提示和響應本身的數量還要多。無論使用者是否看到推理過程（通常他們看不到），推理Token都會增加賬單。它們通常被算作“輸出Token”，因為它們由模型生成，並且比輸入Token更貴。

代理的出現也使Token消耗速度成倍增加。2025年5月，Simon Willison引用了Anthropic的Hannah Moran對代理的定義：“代理是使用工具在迴圈中的模型。”Tredence部落格寫道：“代理迴圈是一個重複的週期，其中AI讀取當前資料，思考其含義，選擇行動，執行行動，檢查結果，然後重新開始。”如果你曾經看過Claude Code、OpenClaw或任何其他代理工作，一個單一請求可能變成對模型的多次呼叫，每次呼叫使用數百甚至數千個Token。除了當前請求外，一個代理生成的呼叫可能包含任務累積的全部上下文和相關文件。在推理Token和代理之間，Token使用量增加了數百倍。

如果Token使用量的增加能導致問題被更有效地解決和任務完成，那可能不是問題。但它與閃電式擴張者的虧損定價策略相沖突；他們願意以虧損運營來獲得市場控制權，但這種意願是有限度的。無論AI使用者數量是否在增加，每個使用者的計算量（因此成本）隨著代理的使用而增長。推理模型增加了Token使用量；代理加劇了問題；這導致了價格上漲。1 Microsoft/GitHub不想支付Copilot客戶的AI賬單。我們還沒有看到AI提供商全面提價。但我們看到了GitHub的Token信用點，也看到了Anthropic和OpenAI對更強大模型的定價顯著高於舊模型或較弱的模型。Fable的價格是Opus 4.8的兩倍，雖然有些作者稱這個定價“很棒”，但那可能是因為他們預期漲幅更大。雖然Fable可以將任務委託給Anthropic較便宜的模型，但大多數早期使用者觀察到，使用Fable時Token使用量反而上升。Anthropic轉向基於Token的計費方式（目前暫停）是廉價AI時代即將結束的又一個訊號。OpenAI的故事類似：GPT 5.5每百萬Token的價格是GPT 5.4的兩倍。

容量問題也很重要。大型資料中心雖然上了新聞，但這些資料中心尚未建成。更重要的是，支援這些資料中心所需的電力基礎設施——輸電線路、發電機——也尚未建成，而AI公司對此投資控制有限。他們可以在資料中心園區內建設自己的發電設施，但這需要對他們不熟悉的技術進行鉅額投資。即使本地發電，也需要其他基礎設施：煤炭的鐵路、天然氣的管道。這（目前）不是一篇關於資料中心電力消耗及其後果的文章，但它是限制Token使用量增加的另一個因素。我們看到Anthropic的停機歸咎於容量問題，而Anthropic透過租賃SpaceX未使用的資料中心容量來回應。但應對無法由當前容量滿足的需求增長的另一種方式是提高價格，將客戶限制在有能力支付的人。這種價格上漲正被管理者、會計和獨立開發者注意到。

Token最佳化和問責是Token價格上漲的必然結果。建立問責制的一種方式是透過更好的治理，Bennie Haelen在“補貼結束了：使用工具的代理實際成本”一文中描述了這一點。更好的治理透過構建可觀察性層來實現，讓你能夠準確看到代理和模型正在做什麼。透過設計良好的可觀察性層，你可以看到每次呼叫傳送給模型的資料是否在增長，模型是否在使用合適的工具，工具是否被重複呼叫，以及許多其他資訊，這些資訊會告訴你代理是否高效執行。

Token問責的另一個方面是理解哪些模型在處理你的代理請求。通用推理模型的範圍從昂貴的、高效能的模型（如Claude Fable或Opus 4.8）到可以在配置良好的筆記本上執行的模型（如Gemma 4 26B），甚至更小的模型。雖然很容易說“我需要最好的，我將執行Opus 4.8或Fable並開啟最大推理”，但大多數請求並不需要那種水平的推理或成本。代理將能夠決定哪個模型最適合處理每個請求。Fable可以委託，我們預計隨著模型整合代理能力，其他前沿提供商也會跟進。而前沿AI提供商之外還有一個活躍的開源模型世界。Vicki Boykis寫道，本地執行的模型現在幾乎和前沿模型一樣好。像OpenRouter這樣的工具提供了一種獨立於模型的方式將請求路由到不同的模型，包括本地執行的開源模型。OpenRouter可以與OpenClaw、Claude Code、Cursor、Codex等代理整合，提供智慧路由。

Tokenmaxxing正在消亡。毫無疑問，它的殘餘需要時間才能消失，並且總會有開發者認為他們可以走捷徑獲得晉升，以及管理者堅持要“全力以赴”使用AI。但負責任地使用Token現在已成為常態，無論你是用個人支票簿還是公司賬戶支付。隨著每次Token費用的增加，Token最佳化只會變得更加重要。它們無疑會。