AI News HubLIVE
站内改写2 分钟阅读

我们认为将AI令牌成本转嫁给客户是错误的决定

随着公司因高额AI使用账单而限制访问,Axamy主张采用无上限订阅模式,将成本优化作为自身责任,并通过架构改进降低运营开支。

来源Hacker News AI作者: jhonovich

最近几个月,许多企业开始缩减其内部AI工具或AI产品的使用权限。具体案例触目惊心:一家公司在四个月内烧光了全年的AI编码预算;另一家公司因未设使用限制,一个月内为一个AI工具花费了50万美元;个人用户一天内自费数千美元;团队面临的账单远超预算。对此,常见的反应是限制使用、强制上限甚至完全停止。

这种反应可以理解。但最常见的解决方案——通过按使用量定价将可变令牌成本转嫁给客户——只会让问题恶化,而非解决。

当您按令牌或API调用向客户收费时,您只是转移了成本问题,并未真正解决。客户签约是为了完成工作,并非管理推理成本。当账单超出预期时,他们不会考虑消耗了多少令牌,而是思考原本同意的价格与实际收费的差距。这类似于过去的手机超额费用:客户正常使用服务,却收到意外账单,愤怒往往指向服务商。您把成本管理难题变成了信任危机。

我们选择了不同的方向。Axamy采用固定订阅费,无使用上限。令牌成本是我们的问题,而非客户的。这一决定部分出于客户体验考量,但也是基于自身利益——我们的人均定价高于许多AI工具,且面向团队而非个人销售,这让我们有更充裕的利润空间来吸收这些成本。

诚然,无限制模式并非适用于所有企业。当客户使用量差异极大时,某些形式的限制或许有必要,未来我们也可能面临这种情况。但将令牌成本默认转嫁给客户,是错误的出发点。

更深层的原因是:当令牌账单落在我们身上时,我们有直接的经济动力去真正解决成本问题,而非转嫁。过去两周,我们的团队在这方面取得了显著进展。具体优化包括:

  • 提示缓存失效修复:我们发现轮换的预签名图片URL导致每次对话都使提示缓存失效——新的URL字符串被视为缓存未命中,迫使完整上下文重写。我们追踪到一次失控会话中,42次调用产生了370万写入令牌。现已修复。
  • 动态上下文重构:将动态状态移至提示末尾,并设置显式缓存断点,使得会话中途的状态变更仅需数百个重新读取令牌,而非使整个缓存失效。
  • 懒加载:停止在每轮默认注入动作描述。未缓存的令牌从约2000降至每次500,减少了75%。
  • 按需上下文扩展:用1000令牌的概要清单替代每轮注入31000令牌的完整计划,仅在代理真正需要时拉取详情。

这些优化并非一日之功,但每次改进都会持续降低后续所有会话的成本。当前正在限流或转嫁成本的公司并非错了,但限流只是权宜之计,转嫁则是放弃责任。真正的解决方案是构建架构高效的系统。这项工程虽难,但激励结构至关重要。由于我们吸收成本而非转嫁,我们有直接的经济理由让系统持续降本。这种客户利益与自身利益的一致性,正是无限制定价真正带来的价值。