2026-07-01 18:54 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-01 19:30 UTC+8

為什麼你的AI賬單比實際應支付的更大

一次287美元的除錯會話促使工程師Tejas Chopra建立了Headroom，這是一個開源的上下文最佳化層，透過壓縮和快取傳送給LLM的上下文，已在五個月內為使用者節省了70萬美元，並將token使用量視為可解決的工程問題。

來源Hacker News AI作者: chhum

文章情報

工程師進階

要點

傳送給LLM的大部分資料是不必要的，而你卻在為此付費；一次287美元的賬單催生了一個在五個月內為使用者節省70萬美元的工具。
Token衛生是下一個工程學科：將token預算視為計算信用，衡量任務實際需求而非消耗。
提供商壓縮你的資料但不將節省的費用傳遞給你：在資料到達提供商之前進行壓縮，能讓團隊獲得提供商無動力提供的AI支出可見性。
Headroom使用統計壓縮、快取和檢索機制來減少token消耗，並針對不同型別上下文（如JSON、程式碼、文本）採用不同壓縮器。

為什麼重要

這條新聞值得關注，因為傳送給LLM的大部分資料是不必要的，而你卻在為此付費；一次287美元的賬單催生了一個在五個月內為使用者節省70萬美元的工具。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

一次287美元的除錯會話促使一位工程師重新思考我們如何向大語言模型（LLM）提供資料，其結果已在五個月內為使用者節省了約70萬美元。

Tejas Chopra在除錯GPU故障時，按常規流程提取日誌並讓Claude識別問題，但發現單個提示消耗了整個上下文視窗的兩倍。他意識到模型多次讀取整個日誌檔案，處理所有內容後才提取出真正相關的三行。當他彙總月度賬單時，個人專案工作花費了287美元。

解決方法是重寫提示以忽略INFO行，僅關注警告和警報。響應時間縮短，token成本下降，但Chopra仍然感到困擾。他認為不能期望每個開發者都手動策劃提示，因此開始探索自動化流程。

結果就是Headroom，一個面向LLM的開源上下文最佳化層。在Linux開源峰會上展示該專案時，Chopra發現這一想法引起了廣泛共鳴。在停止收集統計資料前，Headroom在五個月內為其使用者節省了約70萬美元，並回收了2000億token。這一早期成功促使Chopra離開高階工程師職位，創立了Headroom Labs。

Headroom的壓縮流程經歷了三個不同階段。首先針對JSON，透過去除空格、逗號、引號和巢狀縮排，在不丟失任何資料的情況下實現30%的節省。其次，它尋找值之間的統計相似性進行壓縮。例如，如果陣列中有88/90個值在0到1之間，另外兩個是異常值，則只傳輸異常值和摘要。最後，每個壓縮負載都由快取條目支援，快取鍵由會話ID和原始資料雜湊組成，避免跨會話汙染。原始資料儲存在本地Redis或SQLite中，預設TTL為5到30分鐘，企業部署時可使用RDS或Bigtable等資料庫。

壓縮的風險在於模型可能需要被丟棄的資料。Chopra的解決方案是在壓縮輸出中留下一個工具呼叫，模型可以呼叫它以獲取完整的原始資料。這種情況發生在不到1%的案例中，因為統計壓縮應足夠保守，且模型足夠智慧。

Headroom為不同上下文型別使用不同的壓縮器：程式碼使用抽象語法樹，鎖檔案有專門處理，網頁（如文件、API參考）另有方法，而非結構化文本則由一個名為Kompress Base的小型開源模型處理，該模型透過判斷刪除每個詞是否改變語義來學習壓縮語法。

Headroom目前僅壓縮輸入，輸出壓縮正在開發中。本地檔案讀取（約佔典型編碼代理流程中上下文的60%）不進行壓縮，而是透過與Serena或CodeMCP等工具整合，減少需要讀取的檔案面。

另一個有趣的功能是“learn”機制，它挖掘歷史代理會話中的重複失敗模式，並自動將修正寫入CLAUDE.md檔案。這解決了代理在多個會話中重複犯相同錯誤的問題。

構建Headroom的主要挑戰是整合。每個LLM提供商的API方言不同，路由層（Bedrock、Vertex AI、Azure）又引入變體。此外，編碼代理和工具的多樣性使相容性矩陣更加複雜。Headroom對Claude和Codex提供一級支援，其他為實驗性。

Chopra建議將token衛生視為新的工程學科。透過像管理計算信用一樣管理token預算，並在資料到達提供商之前進行壓縮，團隊可以獲得提供商無動力提供的AI支出可見性。