“Tokenmaxxing 是真实的、昂贵的,而且正在蔓延”:新工具遏制AI预算爆炸
Tokenmaxxing(无节制使用AI token)导致企业预算失控。以Uber为例,其CTO称AI预算已超支。新兴公司Lanai推出Token Tuner工具,通过将token消耗映射到具体工作流程和业务成果,帮助企业优化模型选择、降低浪费,推动从“tokenmaxxing”向“outcomemaxxing”转变。
文章情报
要点
- Tokenmaxxing使企业AI预算爆炸,Uber等公司已出现严重超支。
- Lanai推出Token Tuner,通过追踪token与工作流程、成果的关联,提供效率评分和模型推荐。
- 强调“outcomemaxxing”,即关注实际业务产出而非单纯token使用量。
为什么重要
这条新闻值得关注,因为Tokenmaxxing使企业AI预算爆炸,Uber等公司已出现严重超支。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
对抗tokenmaxxing(无节制使用AI token)的战斗中有了新武器。
Tokenmaxxing指的是企业将AI token使用量等同于生产力。然而,token使用量很容易变成虚荣指标,将大量token消耗视为生产力直接标尺的企业,往往无法将token使用与实际成果挂钩。
作为一种潮流,tokenmaxxing曾风靡一时,但随着焦点转向实际成果而非为用AI而用AI,理性声音正占据上风。以Uber近期遭遇为例:
Uber CTO Neppalli Naga上个月对《The Information》表示:“我得重新规划了,因为我以为需要的预算已经被烧光了。”这笔预算原本用于Uber使用Anthropic的Claude Code。
几周后,Uber COO Andrew Macdonald在《Business Insider》的快速采访中回应称,Naga关于预算超支的言论让运营团队“头炸了”。
“大家都觉得‘哦,头炸了’,”Macdonald说,“我们不得不开始讨论token消耗及相关成本与人员成本之间的权衡,并作为工程组织做出取舍。
“如果你无法直接证明这些投入带来了多少有用的功能交付给用户,这种取舍就难以自圆其说。”
Lanai联合创始人兼CEO Lexi Reese强调,问题无处不在,Uber只是最新一家高调踩坑的公司。
“Tokenmaxxing是真实的、昂贵的,而且正在从少数工程师或公司蔓延开来,”Reese告诉The New Stack。
Tokenmaxxing可能导致代码臃肿、代理式AI失控、软件应用变得脆弱甚至易受攻击,同时还会增加成本并降低对整个系统状态的可见性。
Lanai是一家AI问责公司,旨在帮助企业了解AI开支发生在哪里、AI应用于哪些工作流、成本是多少。
该公司最近推出了Token Tuner,用于识别哪些场景可以用低成本模型替代以减少不必要的token开销。这是开发者和管理者控制工程师及终端用户token使用的最新工具。互联网上充斥着各种“十大技巧”来减少token使用。Kong、Braintrust、LiteLLM、Dynatrace等公司和组织也提供确保token预算的工具。
Reese及其团队将Token Tuner定位为填补企业上下文空白的服务,它将token开销映射到工作流、模型选择、效率和创造的价值。该软件将每次AI交互与可衡量的成果绑定,并根据用户为任务匹配的token用量与模型选择生成生产力评分。
例如,一名员工用Opus 4.7处理邮件回复,其效率评分很可能低于使用更小模型完成相同任务。
从tokenmaxxing到outcomemaxxing
Reese希望公司转向outcomemaxxing,分析哪些工作流真正提升了生产力。
目前处于beta阶段,Lanai Token Tuner的一位用户将组织中4.2%的AI使用时间进行了委托,却只用了0.7%的token。其效率评分为6.0,表明该用户为任务匹配了正确模型,而其他人消耗了10倍token,效率却只有一半。
Lanai首席产品官Mohit Mehta告诉The New Stack,Token Tuner是全地形车——其评分引擎能够处理单个工作流跨多个模型的情况。
“生产力是通过委托给AI的任务复杂度来估算的,基于Lanai专有模型对提示和工具活动的观察,”Mehta说,“该模型在提示和工具调用层面运行,独立于模型和应用程序。”
追踪商业任务中的AI使用
随着我们越来越强调技术部署带来的业务成果(甚至政客近期也开始使用“可衡量成果”这个词),我们需要思考Token Tuner在API层面需要哪些仪表化措施来将token归因到具体业务成果。
“Lanai聚合给定会话中的提示交互及相关工具活动,然后运行专有模型计算任务类型、生产力增益和复杂度,”Mehta解释道,“这使得客户能够从无上下文的供应商发票,追溯到意图、价值和成本——在交互层面。这一功能无需自定义仪表化。”
“我们不用合成评估数据,而是利用观察到的实际成果数据。我们的建议基于组织内真实用户使用不同模型获得类似结果的实证。”
当Token Tuner推荐低成本模型时,是否有基准来评估输出质量是否等同?对此,Mehta澄清:“我们不依赖合成评估,而是利用观察到的成果数据。我们的建议基于组织内真实用户使用不同模型获得类似结果的实证。
“例如,我们不会简单说‘这个模型适合你’,而是提供经验证据:‘你所在团队用Haiku执行这个工作流时同样成功。’这是真实世界的大规模偏好,而非合成基准。”
主要功能包括:工作流级价值可见性——显示哪些团队、工作流和用例在驱动AI开支,以及这些使用是否与可衡量的业务价值挂钩;生产力和效率测量——比较token花费与用户、团队、工作流获得的杠杆,展示AI每美元创造的最大价值;开支优化推荐——识别失控的工作流、不匹配的任务以及用低成本模型即可处理的场景。
AI的下一个杀手级服务:效率?
最初,地球冷却时,我们只想要AI……普通的预测性AI就够了。然后恐龙灭绝了,我们想要领域特定的RAG智能,随后出现了带人类监督的智能体AI以防机器人起义。现在,也许我们想要恰到好处的AI——最实用意义上的“适用”,避免在不必要的地方使用,只在真正需要时才开启高能耗模式。
实际上,AI的下一个杀手级应用远不止效率,但效率会成为更重要的部分。