AI News HubLIVE
站内改写3 分钟阅读

更便宜的LLM代币反而导致更大的人工智能账单(杰文斯悖论)

随着LLM代币价格暴跌,企业人工智能支出反而激增,因为代理型工作负载消耗的代币量是聊天提示的50倍。Uber在四个月内烧光了全年AI预算,被迫实施每人每月1500美元的使用上限。本文分析了代币定价经济学,并建议将可变成本转换为固定基础设施以更好地控制预算。

来源Hacker News AI作者: AndrewLiu96

Uber在四个月内烧完了全年的人工智能预算。不是因为浪费,而是因为做了领导层鼓励的事情。该公司有庆祝大量使用AI的内部排行榜,高管们公开赞扬生产力提升,然后账单来了。结果是:从2026年6月起,每位员工使用每个代理编码工具每月硬性上限为1500美元。这个故事不是关于一家公司规划不善的警示,而是当按使用付费的代币定价遇到大规模代理型工作负载时会发生的预演,而且它正在进入你的预算。

从数字开始。代币价格在2025年至2026年间下降了约80%。你的工程师并没有省下这些钱;他们将其视为运行更多、更长、更有野心的任务的许可。一项成本为10美元的任务现在只需2美元,所以你的团队运行五次而不是一次,然后交给一个代理自动运行五十次。

最强烈的反驳是:“如果单位成本下降了80%,即使使用量增加三倍,账单也会保持不变。”对于聊天式的单轮交互来说,这是正确的。但一旦引入代理循环,它就完全失效了,因为代理不会使代币消耗增加三倍,而是使其增加50倍。一次代理编码会话现在每个任务消耗100万到350万代币;一个代理编码工具,如果大量使用,仅凭自己就会超过Uber每月1500美元的上限。

数学并不微妙。以Claude Opus 4.8为例,你的高级工程师可能会在复杂重构任务中合理使用它。输入代币每百万5美元,输出代币每百万25美元。一次代理轮次:20万输入代币×5美元/百万=1美元。模型回复5万输出代币×25美元/百万=1.25美元。总计每轮2.25美元。现在乘以一个真实工作日:每天40轮,20个工作日。那就是每月1800美元,来自一个工程师,使用一个工具,在一个模型上。Uber的1500美元上限不足以覆盖。

输出代币是逃逸变量。每个主要模型的输出代币成本是输入的4-10倍。在代理型工作负载上,输出量是逃逸的变量。开发者支出遵循幂律分布。一个单独使用单一订阅工具的开发者大约支付100美元。一个大量使用多工具的用户大约400美元。而真正获得生产力提升的代理型用户则花费1500美元。据报道,微软在发现一些工程师每人每月运行2000美元后,取消了员工的AI许可证。

这种分布很重要,因为它关系到你如何考虑治理。从AI中获得最大商业价值的工程师,结构上也是产生最大账单的工程师。粗暴的工具级别上限两者都限制。63%的组织现在将AI列为积极的FinOps关注点,高于2024年的31%,根据FinOps基金会的数据。这种翻倍不是恐慌,而是认识到按代币计费没有自然上限,财务团队没有为此做好准备。

结构性的替代方案是将可变成本转换为固定的、可规划的成本:你拥有的基础设施,你运行的模型,账单更像数据中心项目而不是出租车计价器。这就是架构变化,而不是配置调整。拥有堆栈也将第二个问题归结为同一个决策:无法将敏感代码或专有数据发送到外部API的团队(如受监管行业),从同一个架构选择中获得成本控制和数据控制:当模型在你自己的边界内运行时,支出是你预置的容量,数据永远不会离开。

诚实的反对意见是,自有基础设施前期成本更高。这是真的,你应该仔细建模。盈亏平衡点取决于你的团队规模、模型组合以及你的工程师实际处于幂律曲线的哪个位置。但Uber的情况——四个月内烧完年度预算然后使用粗暴上限——背后有一个特定的基础设施形态:计量的外部API,没有架构上限。

看看FinOps基金会的数据。两年前,不到三分之一的组织认为AI支出是FinOps问题。今天接近三分之二。另外三分之一尚未赶上,或者他们决定生产力收益足以证明开放式计量是合理的。第二个立场在一段时间内、在适当的规模下是站得住脚的。据报道,一家公司在未能实施员工使用上限后花费了大约5亿美元用于AI。MIT的研究表明,大约95%的企业生成式AI项目在六个月内未能产生可衡量的财务回报。在董事会质疑时,无限支出用于模糊回报是一个难以维持的立场。

对于领先于这一曲线的团队来说,有效的做法是:建模你特定代理型工作负载的成本(使用上面的数学作为起点),将其与你实际可衡量的生产力回报进行映射,并决定是计量外部支出还是固定自有基础设施能让你更好地控制这个比率。不要让输入代币的标价成为你的财务团队看到的数字。