壓縮99%,賬單僅省1%:我審計了10億Token來找出原因
作者發現儘管模型成本下降,但團隊Token消耗反而增加,導致賬單上升。調查現有壓縮方法後,發現它們對日誌、SQL模式、差異等智慧體常用資料無效。因此,作者開發了新的架構,透過精確對映和跟蹤Token使用,實現99.9%的壓縮率,但實際節省取決於使用模式。
去年年底,作者的團隊遭遇了嚴重的Token消耗問題。一個看似矛盾的現象出現了:隨著模型價格下降,賬單反而上升。更便宜、更快的模型促使了更頻繁的使用,消耗的增長速度超過了價格下跌的速度,預算因此持續攀升。
為了削減成本,作者嘗試了各種方法,最終轉向了資料壓縮公司以及GitHub上的相關專案。作者在預測市場機器人構建方面有多年經驗,擅長資料壓縮,但結果卻令人失望。學術前沿的方法(如LLMLingua及其後續)只能將文本作為文本壓縮,它們會丟棄統計權重最低的Token。這對於散文文本有效,但對於智慧體日常處理的日誌、SQL模式、差異、堆疊跟蹤、測試輸出和API響應等資料,壓縮效果很差。通用壓縮方法同樣無法勝任。
在分析成本結構時,作者指出,LLM的計費涉及輸入、快取寫入、快取讀取和輸出四個方面。資料壓縮從未觸及輸出這一瓶頸環節。而且,作者發現所有壓縮器都以高壓縮比作為賣點,彷彿這等同於節省,但缺乏明確的研究支援。壓縮比和實際節省之間存在著差距,這正是作者想要測量的。
為此,作者開始構建自己的架構。核心思想並非單純提高壓縮率,而是正確對映和跟蹤Token的流動,其節省上限取決於每個使用者的使用方式。作者的壓縮方法達到了99.9%的壓縮率,但究竟有多少能真正反映在賬單上?這個問題驅動了後續的工作。
其直覺很簡單:良好的對映能讓AI只獲得完成任務所需的最小資訊量,從而最終使用最少的Token。這不僅節省了資金,還提升了速度和準確性,因為模型的注意力是有限的,乾淨的上下文更有助於推理。
然而,壓縮輸入還不夠。作者意識到還必須關注輸出端的最佳化。