压缩99%,账单仅省1%:我审计了10亿Token来找出原因
作者发现尽管模型成本下降,但团队Token消耗反而增加,导致账单上升。调查现有压缩方法后,发现它们对日志、SQL模式、差异等智能体常用数据无效。因此,作者开发了新的架构,通过精确映射和跟踪Token使用,实现99.9%的压缩率,但实际节省取决于使用模式。
去年年底,作者的团队遭遇了严重的Token消耗问题。一个看似矛盾的現象出现了:随着模型价格下降,账单反而上升。更便宜、更快的模型促使了更频繁的使用,消耗的增长速度超过了价格下跌的速度,预算因此持续攀升。
为了削减成本,作者尝试了各种方法,最终转向了数据压缩公司以及GitHub上的相关项目。作者在预测市场机器人构建方面有多年经验,擅长数据压缩,但结果却令人失望。学术前沿的方法(如LLMLingua及其后续)只能将文本作为文本压缩,它们会丢弃统计权重最低的Token。这对于散文文本有效,但对于智能体日常处理的日志、SQL模式、差异、堆栈跟踪、测试输出和API响应等数据,压缩效果很差。通用压缩方法同样无法胜任。
在分析成本结构时,作者指出,LLM的计费涉及输入、缓存写入、缓存读取和输出四个方面。数据压缩从未触及输出这一瓶颈环节。而且,作者发现所有压缩器都以高压缩比作为卖点,仿佛这等同于节省,但缺乏明确的研究支持。压缩比和实际节省之间存在着差距,这正是作者想要测量的。
为此,作者开始构建自己的架构。核心思想并非单纯提高压缩率,而是正确映射和跟踪Token的流动,其节省上限取决于每个用户的使用方式。作者的压缩方法达到了99.9%的压缩率,但究竟有多少能真正反映在账单上?这个问题驱动了后续的工作。
其直觉很简单:良好的映射能让AI只获得完成任务所需的最小信息量,从而最终使用最少的Token。这不仅节省了资金,还提升了速度和准确性,因为模型的注意力是有限的,干净的上下文更有助于推理。
然而,压缩输入还不够。作者意识到还必須关注输出端的优化。