2026-06-18站内改写2 分钟阅读更新: 2026-06-18

我们认为将AI令牌成本转嫁给客户是错误的决定

随着公司因高额AI使用账单而限制访问，Axamy主张采用无上限订阅模式，将成本优化作为自身责任，并通过架构改进降低运营开支。

来源Hacker News AI作者: jhonovich

最近几个月，许多企业开始缩减其内部AI工具或AI产品的使用权限。具体案例触目惊心：一家公司在四个月内烧光了全年的AI编码预算；另一家公司因未设使用限制，一个月内为一个AI工具花费了50万美元；个人用户一天内自费数千美元；团队面临的账单远超预算。对此，常见的反应是限制使用、强制上限甚至完全停止。

这种反应可以理解。但最常见的解决方案——通过按使用量定价将可变令牌成本转嫁给客户——只会让问题恶化，而非解决。

当您按令牌或API调用向客户收费时，您只是转移了成本问题，并未真正解决。客户签约是为了完成工作，并非管理推理成本。当账单超出预期时，他们不会考虑消耗了多少令牌，而是思考原本同意的价格与实际收费的差距。这类似于过去的手机超额费用：客户正常使用服务，却收到意外账单，愤怒往往指向服务商。您把成本管理难题变成了信任危机。

我们选择了不同的方向。Axamy采用固定订阅费，无使用上限。令牌成本是我们的问题，而非客户的。这一决定部分出于客户体验考量，但也是基于自身利益——我们的人均定价高于许多AI工具，且面向团队而非个人销售，这让我们有更充裕的利润空间来吸收这些成本。

诚然，无限制模式并非适用于所有企业。当客户使用量差异极大时，某些形式的限制或许有必要，未来我们也可能面临这种情况。但将令牌成本默认转嫁给客户，是错误的出发点。

更深层的原因是：当令牌账单落在我们身上时，我们有直接的经济动力去真正解决成本问题，而非转嫁。过去两周，我们的团队在这方面取得了显著进展。具体优化包括：

提示缓存失效修复：我们发现轮换的预签名图片URL导致每次对话都使提示缓存失效——新的URL字符串被视为缓存未命中，迫使完整上下文重写。我们追踪到一次失控会话中，42次调用产生了370万写入令牌。现已修复。
动态上下文重构：将动态状态移至提示末尾，并设置显式缓存断点，使得会话中途的状态变更仅需数百个重新读取令牌，而非使整个缓存失效。
懒加载：停止在每轮默认注入动作描述。未缓存的令牌从约2000降至每次500，减少了75%。
按需上下文扩展：用1000令牌的概要清单替代每轮注入31000令牌的完整计划，仅在代理真正需要时拉取详情。

这些优化并非一日之功，但每次改进都会持续降低后续所有会话的成本。当前正在限流或转嫁成本的公司并非错了，但限流只是权宜之计，转嫁则是放弃责任。真正的解决方案是构建架构高效的系统。这项工程虽难，但激励结构至关重要。由于我们吸收成本而非转嫁，我们有直接的经济理由让系统持续降本。这种客户利益与自身利益的一致性，正是无限制定价真正带来的价值。