2026-07-01 00:06 UTC+8站内改写3 分钟阅读更新: 2026-07-01 00:26 UTC+8

Tokenmaxxing的终结

Tokenmaxxing（通过烧毁Token制造生产力假象）正逐渐消失，原因是个人和企业开始关注AI使用成本。GitHub Copilot改为按信用点收费，以及推理模型和代理的兴起大幅增加了Token消耗。AI公司从快速增长转向盈利，导致价格上升。Token优化和问责成为新常态。

来源O'Reilly AI & ML Radar作者: Mike Loukides

Tokenmaxxing（通过烧毁Token制造生产力假象）正在消亡，甚至在我有机会写下它之前就已如此。谢天谢地。通过燃烧Token来营造生产力假象的做法注定只能持续到会计们了解它为止，而最严格的会计就是个人的支票簿。让许多开发者思考AI成本的是GitHub Copilot使用费用的变化。Copilot的费用从每月无限使用的固定费用变为每月购买有限数量信用点（credit）的费用，这些信用点可用于支付你选择的AI提供商。一个信用点相当于0.01美元；当你用完了信用点，你可以升级账户或按需购买额外信用点。

问题不在于为什么这没有更早发生，而在于为什么现在发生。Tokenmaxxing既是AI两大趋势的产物，也是其受害者。首先，从OpenAI开始，主要AI提供商都在玩一种闪电式扩张（blitzscaling）的游戏，优先考虑用户增长而非盈利能力。免费提供AI服务可以吸引更多用户，从长远来看，扩张者会找到通过终端用户费用、出售用户数据或广告来赚钱的方式。这个过程不可避免地会导致服务恶化（enshittification），而我们仍然在这条路上。

其次，Token使用量在2025年末爆炸式增长。“推理模型”的出现，使用Token在解决问题过程中维持内部对话，增加了对每个提示响应的Token使用量。推理Token是模型对自己关于提示可能响应的对话，通常比提示和响应本身的数量还要多。无论用户是否看到推理过程（通常他们看不到），推理Token都会增加账单。它们通常被算作“输出Token”，因为它们由模型生成，并且比输入Token更贵。

代理的出现也使Token消耗速度成倍增加。2025年5月，Simon Willison引用了Anthropic的Hannah Moran对代理的定义：“代理是使用工具在循环中的模型。”Tredence博客写道：“代理循环是一个重复的周期，其中AI读取当前数据，思考其含义，选择行动，执行行动，检查结果，然后重新开始。”如果你曾经看过Claude Code、OpenClaw或任何其他代理工作，一个单一请求可能变成对模型的多次调用，每次调用使用数百甚至数千个Token。除了当前请求外，一个代理生成的调用可能包含任务累积的全部上下文和相关文档。在推理Token和代理之间，Token使用量增加了数百倍。

如果Token使用量的增加能导致问题被更有效地解决和任务完成，那可能不是问题。但它与闪电式扩张者的亏损定价策略相冲突；他们愿意以亏损运营来获得市场控制权，但这种意愿是有限度的。无论AI用户数量是否在增加，每个用户的计算量（因此成本）随着代理的使用而增长。推理模型增加了Token使用量；代理加剧了问题；这导致了价格上涨。1 Microsoft/GitHub不想支付Copilot客户的AI账单。我们还没有看到AI提供商全面提价。但我们看到了GitHub的Token信用点，也看到了Anthropic和OpenAI对更强大模型的定价显著高于旧模型或较弱的模型。Fable的价格是Opus 4.8的两倍，虽然有些作者称这个定价“很棒”，但那可能是因为他们预期涨幅更大。虽然Fable可以将任务委托给Anthropic较便宜的模型，但大多数早期用户观察到，使用Fable时Token使用量反而上升。Anthropic转向基于Token的计费方式（目前暂停）是廉价AI时代即将结束的又一个信号。OpenAI的故事类似：GPT 5.5每百万Token的价格是GPT 5.4的两倍。

容量问题也很重要。大型数据中心虽然上了新闻，但这些数据中心尚未建成。更重要的是，支持这些数据中心所需的电力基础设施——输电线路、发电机——也尚未建成，而AI公司对此投资控制有限。他们可以在数据中心园区内建设自己的发电设施，但这需要对他们不熟悉的技术进行巨额投资。即使本地发电，也需要其他基础设施：煤炭的铁路、天然气的管道。这（目前）不是一篇关于数据中心电力消耗及其后果的文章，但它是限制Token使用量增加的另一个因素。我们看到Anthropic的停机归咎于容量问题，而Anthropic通过租赁SpaceX未使用的数据中心容量来回应。但应对无法由当前容量满足的需求增长的另一种方式是提高价格，将客户限制在有能力支付的人。这种价格上涨正被管理者、会计和独立开发者注意到。

Token优化和问责是Token价格上涨的必然结果。建立问责制的一种方式是通过更好的治理，Bennie Haelen在“补贴结束了：使用工具的代理实际成本”一文中描述了这一点。更好的治理通过构建可观察性层来实现，让你能够准确看到代理和模型正在做什么。通过设计良好的可观察性层，你可以看到每次调用发送给模型的数据是否在增长，模型是否在使用合适的工具，工具是否被重复调用，以及许多其他信息，这些信息会告诉你代理是否高效运行。

Token问责的另一个方面是理解哪些模型在处理你的代理请求。通用推理模型的范围从昂贵的、高性能的模型（如Claude Fable或Opus 4.8）到可以在配置良好的笔记本上运行的模型（如Gemma 4 26B），甚至更小的模型。虽然很容易说“我需要最好的，我将运行Opus 4.8或Fable并开启最大推理”，但大多数请求并不需要那种水平的推理或成本。代理将能够决定哪个模型最适合处理每个请求。Fable可以委托，我们预计随着模型整合代理能力，其他前沿提供商也会跟进。而前沿AI提供商之外还有一个活跃的开源模型世界。Vicki Boykis写道，本地运行的模型现在几乎和前沿模型一样好。像OpenRouter这样的工具提供了一种独立于模型的方式将请求路由到不同的模型，包括本地运行的开源模型。OpenRouter可以与OpenClaw、Claude Code、Cursor、Codex等代理集成，提供智能路由。

Tokenmaxxing正在消亡。毫无疑问，它的残余需要时间才能消失，并且总会有开发者认为他们可以走捷径获得晋升，以及管理者坚持要“全力以赴”使用AI。但负责任地使用Token现在已成为常态，无论你是用个人支票簿还是公司账户支付。随着每次Token费用的增加，Token优化只会变得更加重要。它们无疑会。