2026-06-24 01:56 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-24 02:13 UTC+8

壓縮99%，賬單僅省1%：我審計了10億Token來找出原因

作者發現儘管模型成本下降，但團隊Token消耗反而增加，導致賬單上升。調查現有壓縮方法後，發現它們對日誌、SQL模式、差異等智慧體常用資料無效。因此，作者開發了新的架構，透過精確對映和跟蹤Token使用，實現99.9%的壓縮率，但實際節省取決於使用模式。

來源Hacker News AI作者: josuramos

去年年底，作者的團隊遭遇了嚴重的Token消耗問題。一個看似矛盾的現象出現了：隨著模型價格下降，賬單反而上升。更便宜、更快的模型促使了更頻繁的使用，消耗的增長速度超過了價格下跌的速度，預算因此持續攀升。

為了削減成本，作者嘗試了各種方法，最終轉向了資料壓縮公司以及GitHub上的相關專案。作者在預測市場機器人構建方面有多年經驗，擅長資料壓縮，但結果卻令人失望。學術前沿的方法（如LLMLingua及其後續）只能將文本作為文本壓縮，它們會丟棄統計權重最低的Token。這對於散文文本有效，但對於智慧體日常處理的日誌、SQL模式、差異、堆疊跟蹤、測試輸出和API響應等資料，壓縮效果很差。通用壓縮方法同樣無法勝任。

在分析成本結構時，作者指出，LLM的計費涉及輸入、快取寫入、快取讀取和輸出四個方面。資料壓縮從未觸及輸出這一瓶頸環節。而且，作者發現所有壓縮器都以高壓縮比作為賣點，彷彿這等同於節省，但缺乏明確的研究支援。壓縮比和實際節省之間存在著差距，這正是作者想要測量的。

為此，作者開始構建自己的架構。核心思想並非單純提高壓縮率，而是正確對映和跟蹤Token的流動，其節省上限取決於每個使用者的使用方式。作者的壓縮方法達到了99.9%的壓縮率，但究竟有多少能真正反映在賬單上？這個問題驅動了後續的工作。

其直覺很簡單：良好的對映能讓AI只獲得完成任務所需的最小資訊量，從而最終使用最少的Token。這不僅節省了資金，還提升了速度和準確性，因為模型的注意力是有限的，乾淨的上下文更有助於推理。

然而，壓縮輸入還不夠。作者意識到還必須關注輸出端的最佳化。