2026-05-28 01:27 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

“Tokenmaxxing 是真实的、昂贵的，而且正在蔓延”：新工具遏制AI预算爆炸

Tokenmaxxing（无节制使用AI token）导致企业预算失控。以Uber为例，其CTO称AI预算已超支。新兴公司Lanai推出Token Tuner工具，通过将token消耗映射到具体工作流程和业务成果，帮助企业优化模型选择、降低浪费，推动从“tokenmaxxing”向“outcomemaxxing”转变。

来源The New Stack AI作者: Adrian Bridgwater

对抗tokenmaxxing（无节制使用AI token）的战斗中有了新武器。

Tokenmaxxing指的是企业将AI token使用量等同于生产力。然而，token使用量很容易变成虚荣指标，将大量token消耗视为生产力直接标尺的企业，往往无法将token使用与实际成果挂钩。

作为一种潮流，tokenmaxxing曾风靡一时，但随着焦点转向实际成果而非为用AI而用AI，理性声音正占据上风。以Uber近期遭遇为例：

Uber CTO Neppalli Naga上个月对《The Information》表示：“我得重新规划了，因为我以为需要的预算已经被烧光了。”这笔预算原本用于Uber使用Anthropic的Claude Code。

几周后，Uber COO Andrew Macdonald在《Business Insider》的快速采访中回应称，Naga关于预算超支的言论让运营团队“头炸了”。

“大家都觉得‘哦，头炸了’，”Macdonald说，“我们不得不开始讨论token消耗及相关成本与人员成本之间的权衡，并作为工程组织做出取舍。

“如果你无法直接证明这些投入带来了多少有用的功能交付给用户，这种取舍就难以自圆其说。”

Lanai联合创始人兼CEO Lexi Reese强调，问题无处不在，Uber只是最新一家高调踩坑的公司。

“Tokenmaxxing是真实的、昂贵的，而且正在从少数工程师或公司蔓延开来，”Reese告诉The New Stack。

Tokenmaxxing可能导致代码臃肿、代理式AI失控、软件应用变得脆弱甚至易受攻击，同时还会增加成本并降低对整个系统状态的可见性。

Lanai是一家AI问责公司，旨在帮助企业了解AI开支发生在哪里、AI应用于哪些工作流、成本是多少。

该公司最近推出了Token Tuner，用于识别哪些场景可以用低成本模型替代以减少不必要的token开销。这是开发者和管理者控制工程师及终端用户token使用的最新工具。互联网上充斥着各种“十大技巧”来减少token使用。Kong、Braintrust、LiteLLM、Dynatrace等公司和组织也提供确保token预算的工具。

Reese及其团队将Token Tuner定位为填补企业上下文空白的服务，它将token开销映射到工作流、模型选择、效率和创造的价值。该软件将每次AI交互与可衡量的成果绑定，并根据用户为任务匹配的token用量与模型选择生成生产力评分。

例如，一名员工用Opus 4.7处理邮件回复，其效率评分很可能低于使用更小模型完成相同任务。

从tokenmaxxing到outcomemaxxing

Reese希望公司转向outcomemaxxing，分析哪些工作流真正提升了生产力。

目前处于beta阶段，Lanai Token Tuner的一位用户将组织中4.2%的AI使用时间进行了委托，却只用了0.7%的token。其效率评分为6.0，表明该用户为任务匹配了正确模型，而其他人消耗了10倍token，效率却只有一半。

Lanai首席产品官Mohit Mehta告诉The New Stack，Token Tuner是全地形车——其评分引擎能够处理单个工作流跨多个模型的情况。

“生产力是通过委托给AI的任务复杂度来估算的，基于Lanai专有模型对提示和工具活动的观察，”Mehta说，“该模型在提示和工具调用层面运行，独立于模型和应用程序。”

追踪商业任务中的AI使用

随着我们越来越强调技术部署带来的业务成果（甚至政客近期也开始使用“可衡量成果”这个词），我们需要思考Token Tuner在API层面需要哪些仪表化措施来将token归因到具体业务成果。

“Lanai聚合给定会话中的提示交互及相关工具活动，然后运行专有模型计算任务类型、生产力增益和复杂度，”Mehta解释道，“这使得客户能够从无上下文的供应商发票，追溯到意图、价值和成本——在交互层面。这一功能无需自定义仪表化。”

“我们不用合成评估数据，而是利用观察到的实际成果数据。我们的建议基于组织内真实用户使用不同模型获得类似结果的实证。”

当Token Tuner推荐低成本模型时，是否有基准来评估输出质量是否等同？对此，Mehta澄清：“我们不依赖合成评估，而是利用观察到的成果数据。我们的建议基于组织内真实用户使用不同模型获得类似结果的实证。

“例如，我们不会简单说‘这个模型适合你’，而是提供经验证据：‘你所在团队用Haiku执行这个工作流时同样成功。’这是真实世界的大规模偏好，而非合成基准。”

主要功能包括：工作流级价值可见性——显示哪些团队、工作流和用例在驱动AI开支，以及这些使用是否与可衡量的业务价值挂钩；生产力和效率测量——比较token花费与用户、团队、工作流获得的杠杆，展示AI每美元创造的最大价值；开支优化推荐——识别失控的工作流、不匹配的任务以及用低成本模型即可处理的场景。

AI的下一个杀手级服务：效率？

最初，地球冷却时，我们只想要AI……普通的预测性AI就够了。然后恐龙灭绝了，我们想要领域特定的RAG智能，随后出现了带人类监督的智能体AI以防机器人起义。现在，也许我们想要恰到好处的AI——最实用意义上的“适用”，避免在不必要的地方使用，只在真正需要时才开启高能耗模式。

实际上，AI的下一个杀手级应用远不止效率，但效率会成为更重要的部分。