2026-05-17站内改写2 分鐘閱讀更新: 2026-06-12

一個廉價修復方案，每年為AI節省4億美元，並讓40億人接入網絡

Codec是一種新型協議，通過在網絡傳輸中保持令牌ID格式，避免反覆的解令牌化和重新令牌化，從而大幅減少數據量、降低延遲和成本。它有望每年為全球AI行業節省約4億美元，並使約50億用户能夠在低速、昂貴的網絡上使用AI。

來源Hacker News AI作者: Zombwaffle

Codec是一種創新的AI推理優化協議，它直接以令牌ID作為網絡傳輸格式，避免了傳統AI推理棧中反覆的解令牌化（detokenize）和重新令牌化（re-tokenize）過程。在當前的AI系統中，模型處理的是令牌，但中間件（如網關、路由器、工具調度器）都基於文本工作，導致每次數據交換都需要將令牌ID轉換為文本、包裝成JSON、傳輸、解析、再轉換回令牌ID，這一過程消耗大量CPU、內存和延遲，並可能引發KV緩存損壞。Codec通過保持令牌ID格式，使得網關、工具調度器和跨模型轉換都直接在原始令牌ID上操作，消除了冗餘轉換。

在實際測試中，Codec在真實代理流量下通常減少16倍的數據傳輸量，在內容壓縮良好的情況下可減少高達1700倍。對於移動設備，這意味着更快的響應速度和更低的雲成本。在大型集羣規模下，可以節省大量網絡能源和中間件CPU資源。Codec兼容現有的AI服務器（如sglang、vllm、llama.cpp），支持TypeScript、Python、Rust、Java、.NET和C等客户端庫，並且無需修改現有代碼。

Codec的主要優勢包括：

節省成本：基於重型代理基準（工具使用+A2A），全球AI行業每年可節省約4億美元，包括雲出口、GPU阻塞請求和衞星網絡費用。
提升移動端性能：在10 Mbps的4G網絡上，2K令牌的回覆速度可提升10倍。
降低環境影響：目前每年可減少約400輛汽車的碳排放，到2030年可減少約4000輛。
擴大可訪問性：使約50億原本因網絡限制無法使用AI的用户能夠接入。

此外，Codec提供了三種核心操作：路由、分發和翻譯，所有操作都在原始令牌ID上執行。MCP（模型上下文協議）路徑中，Codec可以避免工具結果的重新令牌化，使得工具列表傳輸量從21.4 KB降至5.9 KB，工具檢測速度提升26.7倍。在跨模型轉換場景下，例如從Llama-3代理到Qwen-2代理，Codec僅需709字節，而傳統JSON-SSE需要10.4 KB，同時保證輸出字節一致性。

Codec也支持擴散模型（如Stable Diffusion），通過傳輸潛在表示而非解碼像素，在512×512圖像上，int4量化後僅需8.4 KB，比原始fp16像素小180倍，比JPEG小10倍。

總之，Codec不是一個推理加速器，它不改變GPU上的計算速度，而是通過優化網絡和CPU環節來降低成本。它尤其適合當前多跳、工具密集的AI應用場景，每個可見回覆背後有約4倍的內部流量。Codec的開源特性有望推動AI基礎設施的變革，讓更多用户和地區受益。