AI News HubLIVE
站内改写2 分鐘閱讀

Headroom:為AI代理壓縮上下文,削減50-90%的token成本

Headroom是一個開源的上下文壓縮層,可在AI代理讀取的內容到達大語言模型之前進行壓縮,包括工具輸出、日誌、RAG塊、文件和對話歷史。它提供多種集成方式(庫、代理、MCP服務器等),支持多種代理(Claude Code、Codex、Cursor等),並聲稱在保持答案質量的同時將token使用量減少50-90%。項目已在社區中節省超過600億token。

來源Hacker News AI作者: mooreds

Headroom 是一個開源的上下文壓縮層,致力於解決 AI 代理在與大語言模型(LLM)交互時 token 消耗過高的問題。該工具能夠在內容到達 LLM 之前,對所有由 AI 代理讀取的信息——包括工具輸出、日誌、RAG(檢索增強生成)塊、文件以及對話歷史——進行壓縮,從而顯著降低 API 調用成本,同時保持答案的準確性。

Headroom 提供了多種靈活的使用方式。開發者可以將其作為 Python 或 TypeScript 庫集成到現有應用中,通過 compress(messages) 函數調用;也可以使用代理模式 headroom proxy --port 8787 實現零代碼集成;或者通過 headroom wrap 命令直接封裝 Claude Code、Codex、Cursor、Aider 等流行編碼代理。此外,Headroom 還支持 MCP(Model Context Protocol)服務器,方便與任何 MCP 客户端集成。

Headroom 的壓縮機制基於內容路由和多種專用壓縮算法。其 ContentRouter 組件能自動檢測內容類型(如 JSON、代碼、文本),並選擇最優壓縮器:SmartCrusher 適用於通用 JSON,CodeCompressor 以 AST(抽象語法樹)方式壓縮多種編程語言代碼,Kompress-base 則是基於 HuggingFace 模型、針對代理追蹤訓練的高效文本壓縮器。CacheAligner 組件通過穩定前綴模式,幫助提供商(如 Anthropic、OpenAI)的 KV 緩存實現更高命中率,進一步提升效率。一項突出特性是 CCR(可逆壓縮),它確保原始數據永遠不會被刪除,LLM 可在需要時通過 headroom_retrieve 工具按需獲取原始內容。

在性能表現上,Headroom 展示了令人印象深刻的壓縮率。在真實代理工作負載測試中,代碼搜索場景從 17,765 個 token 壓縮至 1,408 個(節省 92%),SRE 事故調試從 65,694 壓縮至 5,118(節省 92%),GitHub 問題分類從 54,174 壓縮至 14,761(節省 73%)。在標準基準測試中,準確性不僅沒有下降,反而在某些任務上略有提升:GSM8K 數學基準準確率保持 0.870,TruthfulQA 事實性基準從 0.530 提升至 0.560。Headroom 還提供了跨代理記憶共享功能,使多個代理(如 Claude、Codex、Gemini)可以共享上下文並自動去重,進一步提升協作效率。

Headroom 由 chopratejas 維護,採用 Apache 2.0 許可證。項目要求 Python 3.10 或更高版本,可通過 pip 或 npm 安裝,也支持 Docker 部署。社區已通過該項目節省超過 600 億 token,並設有實時排行榜跟蹤節省情況。對於日常使用 AI 編碼代理的開發者而言,Headroom 提供了一條無需更改代碼即可大幅降低成本的捷徑。