2026-06-24 01:56 UTC+8站内改写1 分钟阅读更新: 2026-06-24 02:13 UTC+8

压缩99%，账单仅省1%：我审计了10亿Token来找出原因

作者发现尽管模型成本下降，但团队Token消耗反而增加，导致账单上升。调查现有压缩方法后，发现它们对日志、SQL模式、差异等智能体常用数据无效。因此，作者开发了新的架构，通过精确映射和跟踪Token使用，实现99.9%的压缩率，但实际节省取决于使用模式。

来源Hacker News AI作者: josuramos

去年年底，作者的团队遭遇了严重的Token消耗问题。一个看似矛盾的現象出现了：随着模型价格下降，账单反而上升。更便宜、更快的模型促使了更频繁的使用，消耗的增长速度超过了价格下跌的速度，预算因此持续攀升。

为了削减成本，作者尝试了各种方法，最终转向了数据压缩公司以及GitHub上的相关项目。作者在预测市场机器人构建方面有多年经验，擅长数据压缩，但结果却令人失望。学术前沿的方法（如LLMLingua及其后续）只能将文本作为文本压缩，它们会丢弃统计权重最低的Token。这对于散文文本有效，但对于智能体日常处理的日志、SQL模式、差异、堆栈跟踪、测试输出和API响应等数据，压缩效果很差。通用压缩方法同样无法胜任。

在分析成本结构时，作者指出，LLM的计费涉及输入、缓存写入、缓存读取和输出四个方面。数据压缩从未触及输出这一瓶颈环节。而且，作者发现所有压缩器都以高压缩比作为卖点，仿佛这等同于节省，但缺乏明确的研究支持。压缩比和实际节省之间存在着差距，这正是作者想要测量的。

为此，作者开始构建自己的架构。核心思想并非单纯提高压缩率，而是正确映射和跟踪Token的流动，其节省上限取决于每个用户的使用方式。作者的压缩方法达到了99.9%的压缩率，但究竟有多少能真正反映在账单上？这个问题驱动了后续的工作。

其直觉很简单：良好的映射能让AI只获得完成任务所需的最小信息量，从而最终使用最少的Token。这不仅节省了资金，还提升了速度和准确性，因为模型的注意力是有限的，干净的上下文更有助于推理。

然而，压缩输入还不够。作者意识到还必須关注输出端的优化。