将300万美元的AI账单降至190万美元
Flowstate是一个智能代理,通过将AI请求路由到最合适的模型,并跟踪每个项目的支出,帮助企业节省高达42%的AI成本。文章揭示了AI账单膨胀的两个主要原因:默认使用昂贵的旗舰模型以及缺乏成本归属。
如今,您的团队中可能有人在用最昂贵的AI模型编辑幻灯片。这不是他们主动选择的,而是默认设置。这种看不见的选择每天重复数千次,AI账单很快就会变得像工资单一样庞大。
导致账单膨胀的因素有两个:默认模型不适合当前任务——本可以用更便宜的模型完成的工作却支付了旗舰级价格;同时,这些任务在发票上是不可见的,只有一个总金额,无法区分用于哪个项目或模型。
Flowstate位于请求路径中,旨在堵住这两个漏洞。我们将每个提示路由到任务实际需要的模型,并将每一分钱与它所支付的工作挂钩。没有人会减少产出:原本花费300万美元的相同输出,现在只需190万美元,而且您第一次能够看到这笔钱实际买到了什么工作。
您正在为Sonnet级别的工作支付Opus的价格。几乎没有人主动选择模型,他们只是使用界面加载时默认选中的那个,而默认就是旗舰型号——最昂贵的模型。对于真正困难的问题,这是正确的选择;但对于一行邮件,这纯粹是浪费。您不能指望一个营销人员知道他们的默认聊天窗口成本高出五倍,因为价格没有显示在屏幕上,而且供应商也没有动力去显示它。
因此,不要让他们去学习这些。任务应该选择模型,而不是打字的人,这个决定应该在请求层做出,而不是在任何人脑子里。摘要或格式重写交给Haiku,日常编码和草稿交给Sonnet,真正困难的推理交给Opus。您甚至可以将单个任务拆分,用Opus进行规划,用Sonnet执行,将昂贵的思考留给需要的步骤。无论用户整天做什么,他们输入相同的提示,得到相同的答案,只是账单变小了。而且这不仅仅是Claude Code:默认设置也出现在销售、运营和市场人员打开的每一个聊天窗口中。
能省多少?经过同行评审的研究,如Ding等人的Hybrid LLM,表明可以在不影响质量的情况下,将昂贵模型的调用减少高达40%。这只是模型组合的算术运算,适用于您合法运行的任何部署。这是一个随着使用量增长而发挥作用的杠杆:您的团队越依赖AI,错误模型默认设置的成本就越高,而路由带来的节省也越多。
看不见的账单。第一天,一位工程师加入公司,获得一个企业级Claude账户,并在前五个提示中烧掉了145美元。在固定费率计划下,这个使用量本可以维持一周;而在按量计费的企业计划下,午餐前就用完了。人力资源部门已经在问一些他无法回答的问题,他正在计算每月5000美元的费用:“比我的工资还多。”使用量页面本应显示限额,却只显示一个词:无限制。这是一个来自r/ClaudeCode的真实帖子,也是单个截图中的第二个漏洞。
第一个漏洞是没有人选择的模型。第二个是这个:没有人监控的计量器。截至今年,企业级服务对团队在聊天、Claude Code和Cowork中使用的每个令牌收费,标准API费率加上座位费。按量计费对于轻量团队来说很便宜,但在规模扩大时会失控,而且因为它以一份无差别的发票形式呈现,直到财务部门提出质疑,才有人注意到费用激增。您无法路由您看不到的东西,也无法在从未比较过的两个部署之间做出选择。所以比较它们:选择您的入口,确定团队规模,拖动使用量。
哪些项目实际盈利了?路由解决了每项任务的支付问题。更难的问题是您用这些钱买了什么,而这从发票上看不出来。成本只是人们争论的一半,而归属性是另一半,它悄无声息地花费更多。
当有人本月在Opus上花费300美元时,问题不在于哪个模型,而在于哪个项目。如果您无法回答,每一分钱都会落入同一个无差别的运营支出桶中,并在花掉的瞬间被费用化。财务部门看到来自Anthropic的账单和一个数字,无法将其与个人或工作联系起来,因此除了看着它增长之外无能为力。这就像第二份没有成本中心的工资单。
没有上下文的账单只是账单,一个增长的数字。有了上下文,它就变成了一张地图。您可以看到构建新计费流程的团队每月消耗4万美元的模型时间,而一个未经批准的项目每月消耗6万美元。您可以看到哪些功能在上线后永远无法收回成本,哪些廉价功能悄无声息地支撑着路线图。这不是削减成本,而是了解您的杠杆所在,知道该支持哪些工作,该停止哪些工作。归属后的支出不再是财务部门害怕的数字,而成为衡量价值实际产生位置的最敏锐指标。
而且它改变了会计核算,而不仅仅是报告。用于构建新软件的AI支出可以资本化并在其使用年限内摊销,就像传统软件开发在IAS 38或ASC 350-40下的处理方式一样。障碍从来不是会计准则,而是缺乏归属。您无法资本化您无法归属的东西,而供应商的发票不提供任何归属信息。Flowstate将每次调用与个人、项目、模型和成本类别相关联,因此构建实际价值的工作不再隐藏在运营支出中。
您的工作中符合资本化条件的比例越高,效果就越显著。如果70%的开发工作确实是在构建新产品(对许多团队来说确实如此),那么归属就相当于将大部分AI支出从本季度的损益表转移到资产负债表上,在软件产生收入的多年内摊销。对于七位数的AI账单来说,这并非细枝末节,而是当前利润冲击与未来可收回资产之间的差别。(特定项目是否符合条件由您的财务和审计团队判断,而非一篇博文。)
我们的定位。Flowstate是一个智能代理:可以将其视为Zscaler,但针对AI流量。我们不集中账户,也不持有您的合同;您保留自己的密钥以及与所用供应商的直接合约。我们位于请求路径中,在每次调用通过时执行三项操作:将其路由到任务实际需要的模型;检查是否有不应离开的内容(源代码、去向不当的客户PII);并将其记录到个人、项目和成本类别。这就是企业级服务收费高昂的可见性,无需支付溢价,也无需交出您的合同。
因为我们是一个代理而非账户池,您在供应商条款上的位置仍然是您的决定,在掌握全局信息而非盲目情况下做出。您可以看到每个部署的实际成本,降低路由费用,并根据愿意承担的风险程度为每个团队调整使用量。上述两个漏洞是同一台机器在做两项工作:将每个请求发送到正确的模型,并使您选择的部署清晰可管理。
需要坦白一些注意事项。Flowstate使部署可观察和可控,但它不会重写您的合同。如果您需要BAA、数据驻留或合同性的不训练条款,那就需要企业级服务,在那里我们的工作是路由和账本:防止按量计费账单失控。而这一切只适用于重度使用场景:对于轻量团队,按量计费账单永远不会达到这些措施能收回成本的程度,正如计算器一旦您降低使用量所显示的那样。
多年来,这种权衡似乎是二元的:要么让人们使用任何可用的模型并承担费用,要么全面限制并手动审查每个提示。这不应是一个在承担费用和用使用限制让团队停滞之间的二元选择。路由任务,您就不再为Sonnet级别的工作支付Opus价格。归属支出,AI就不再是无差别的利润打击。您只需要一个中间代理来提供控制。