2026-05-17站内改写2 分鐘閱讀更新: 2026-06-12

一個廉價修復方案，每年為AI節省4億美元，並讓40億人接入網路

Codec是一種新型協議，透過在網路傳輸中保持令牌ID格式，避免反覆的解令牌化和重新令牌化，從而大幅減少資料量、降低延遲和成本。它有望每年為全球AI行業節省約4億美元，並使約50億使用者能夠在低速、昂貴的網路上使用AI。

來源Hacker News AI作者: Zombwaffle

Codec是一種創新的AI推理最佳化協議，它直接以令牌ID作為網路傳輸格式，避免了傳統AI推理棧中反覆的解令牌化（detokenize）和重新令牌化（re-tokenize）過程。在當前的AI系統中，模型處理的是令牌，但中介軟體（如閘道器、路由器、工具排程器）都基於文本工作，導致每次資料交換都需要將令牌ID轉換為文本、包裝成JSON、傳輸、解析、再轉換回令牌ID，這一過程消耗大量CPU、記憶體和延遲，並可能引發KV快取損壞。Codec透過保持令牌ID格式，使得閘道器、工具排程器和跨模型轉換都直接在原始令牌ID上操作，消除了冗餘轉換。

在實際測試中，Codec在真實代理流量下通常減少16倍的資料傳輸量，在內容壓縮良好的情況下可減少高達1700倍。對於移動裝置，這意味著更快的響應速度和更低的雲成本。在大型叢集規模下，可以節省大量網路能源和中介軟體CPU資源。Codec相容現有的AI伺服器（如sglang、vllm、llama.cpp），支援TypeScript、Python、Rust、Java、.NET和C等客戶端庫，並且無需修改現有程式碼。

Codec的主要優勢包括：

節省成本：基於重型代理基準（工具使用+A2A），全球AI行業每年可節省約4億美元，包括雲出口、GPU阻塞請求和衛星網路費用。
提升移動端效能：在10 Mbps的4G網路上，2K令牌的回覆速度可提升10倍。
降低環境影響：目前每年可減少約400輛汽車的碳排放，到2030年可減少約4000輛。
擴大可訪問性：使約50億原本因網路限制無法使用AI的使用者能夠接入。

此外，Codec提供了三種核心操作：路由、分發和翻譯，所有操作都在原始令牌ID上執行。MCP（模型上下文協議）路徑中，Codec可以避免工具結果的重新令牌化，使得工具列表傳輸量從21.4 KB降至5.9 KB，工具檢測速度提升26.7倍。在跨模型轉換場景下，例如從Llama-3代理到Qwen-2代理，Codec僅需709位元組，而傳統JSON-SSE需要10.4 KB，同時保證輸出位元組一致性。

Codec也支援擴散模型（如Stable Diffusion），透過傳輸潛在表示而非解碼畫素，在512×512影像上，int4量化後僅需8.4 KB，比原始fp16畫素小180倍，比JPEG小10倍。

總之，Codec不是一個推理加速器，它不改變GPU上的計算速度，而是透過最佳化網路和CPU環節來降低成本。它尤其適合當前多跳、工具密集的AI應用場景，每個可見回覆背後有約4倍的內部流量。Codec的開源特性有望推動AI基礎設施的變革，讓更多使用者和地區受益。