Tokenmaxxing的终结
Tokenmaxxing(通过烧毁Token制造生产力假象)正逐渐消失,原因是个人和企业开始关注AI使用成本。GitHub Copilot改为按信用点收费,以及推理模型和代理的兴起大幅增加了Token消耗。AI公司从快速增长转向盈利,导致价格上升。Token优化和问责成为新常态。
Tokenmaxxing(通过烧毁Token制造生产力假象)正在消亡,甚至在我有机会写下它之前就已如此。谢天谢地。通过燃烧Token来营造生产力假象的做法注定只能持续到会计们了解它为止,而最严格的会计就是个人的支票簿。让许多开发者思考AI成本的是GitHub Copilot使用费用的变化。Copilot的费用从每月无限使用的固定费用变为每月购买有限数量信用点(credit)的费用,这些信用点可用于支付你选择的AI提供商。一个信用点相当于0.01美元;当你用完了信用点,你可以升级账户或按需购买额外信用点。
问题不在于为什么这没有更早发生,而在于为什么现在发生。Tokenmaxxing既是AI两大趋势的产物,也是其受害者。首先,从OpenAI开始,主要AI提供商都在玩一种闪电式扩张(blitzscaling)的游戏,优先考虑用户增长而非盈利能力。免费提供AI服务可以吸引更多用户,从长远来看,扩张者会找到通过终端用户费用、出售用户数据或广告来赚钱的方式。这个过程不可避免地会导致服务恶化(enshittification),而我们仍然在这条路上。
其次,Token使用量在2025年末爆炸式增长。“推理模型”的出现,使用Token在解决问题过程中维持内部对话,增加了对每个提示响应的Token使用量。推理Token是模型对自己关于提示可能响应的对话,通常比提示和响应本身的数量还要多。无论用户是否看到推理过程(通常他们看不到),推理Token都会增加账单。它们通常被算作“输出Token”,因为它们由模型生成,并且比输入Token更贵。
代理的出现也使Token消耗速度成倍增加。2025年5月,Simon Willison引用了Anthropic的Hannah Moran对代理的定义:“代理是使用工具在循环中的模型。”Tredence博客写道:“代理循环是一个重复的周期,其中AI读取当前数据,思考其含义,选择行动,执行行动,检查结果,然后重新开始。”如果你曾经看过Claude Code、OpenClaw或任何其他代理工作,一个单一请求可能变成对模型的多次调用,每次调用使用数百甚至数千个Token。除了当前请求外,一个代理生成的调用可能包含任务累积的全部上下文和相关文档。在推理Token和代理之间,Token使用量增加了数百倍。
如果Token使用量的增加能导致问题被更有效地解决和任务完成,那可能不是问题。但它与闪电式扩张者的亏损定价策略相冲突;他们愿意以亏损运营来获得市场控制权,但这种意愿是有限度的。无论AI用户数量是否在增加,每个用户的计算量(因此成本)随着代理的使用而增长。推理模型增加了Token使用量;代理加剧了问题;这导致了价格上涨。1 Microsoft/GitHub不想支付Copilot客户的AI账单。我们还没有看到AI提供商全面提价。但我们看到了GitHub的Token信用点,也看到了Anthropic和OpenAI对更强大模型的定价显著高于旧模型或较弱的模型。Fable的价格是Opus 4.8的两倍,虽然有些作者称这个定价“很棒”,但那可能是因为他们预期涨幅更大。虽然Fable可以将任务委托给Anthropic较便宜的模型,但大多数早期用户观察到,使用Fable时Token使用量反而上升。Anthropic转向基于Token的计费方式(目前暂停)是廉价AI时代即将结束的又一个信号。OpenAI的故事类似:GPT 5.5每百万Token的价格是GPT 5.4的两倍。
容量问题也很重要。大型数据中心虽然上了新闻,但这些数据中心尚未建成。更重要的是,支持这些数据中心所需的电力基础设施——输电线路、发电机——也尚未建成,而AI公司对此投资控制有限。他们可以在数据中心园区内建设自己的发电设施,但这需要对他们不熟悉的技术进行巨额投资。即使本地发电,也需要其他基础设施:煤炭的铁路、天然气的管道。这(目前)不是一篇关于数据中心电力消耗及其后果的文章,但它是限制Token使用量增加的另一个因素。我们看到Anthropic的停机归咎于容量问题,而Anthropic通过租赁SpaceX未使用的数据中心容量来回应。但应对无法由当前容量满足的需求增长的另一种方式是提高价格,将客户限制在有能力支付的人。这种价格上涨正被管理者、会计和独立开发者注意到。
Token优化和问责是Token价格上涨的必然结果。建立问责制的一种方式是通过更好的治理,Bennie Haelen在“补贴结束了:使用工具的代理实际成本”一文中描述了这一点。更好的治理通过构建可观察性层来实现,让你能够准确看到代理和模型正在做什么。通过设计良好的可观察性层,你可以看到每次调用发送给模型的数据是否在增长,模型是否在使用合适的工具,工具是否被重复调用,以及许多其他信息,这些信息会告诉你代理是否高效运行。
Token问责的另一个方面是理解哪些模型在处理你的代理请求。通用推理模型的范围从昂贵的、高性能的模型(如Claude Fable或Opus 4.8)到可以在配置良好的笔记本上运行的模型(如Gemma 4 26B),甚至更小的模型。虽然很容易说“我需要最好的,我将运行Opus 4.8或Fable并开启最大推理”,但大多数请求并不需要那种水平的推理或成本。代理将能够决定哪个模型最适合处理每个请求。Fable可以委托,我们预计随着模型整合代理能力,其他前沿提供商也会跟进。而前沿AI提供商之外还有一个活跃的开源模型世界。Vicki Boykis写道,本地运行的模型现在几乎和前沿模型一样好。像OpenRouter这样的工具提供了一种独立于模型的方式将请求路由到不同的模型,包括本地运行的开源模型。OpenRouter可以与OpenClaw、Claude Code、Cursor、Codex等代理集成,提供智能路由。
Tokenmaxxing正在消亡。毫无疑问,它的残余需要时间才能消失,并且总会有开发者认为他们可以走捷径获得晋升,以及管理者坚持要“全力以赴”使用AI。但负责任地使用Token现在已成为常态,无论你是用个人支票簿还是公司账户支付。随着每次Token费用的增加,Token优化只会变得更加重要。它们无疑会。