一個廉價修復方案,每年為AI節省4億美元,並讓40億人接入網路
Codec是一種新型協議,透過在網路傳輸中保持令牌ID格式,避免反覆的解令牌化和重新令牌化,從而大幅減少資料量、降低延遲和成本。它有望每年為全球AI行業節省約4億美元,並使約50億使用者能夠在低速、昂貴的網路上使用AI。
Codec是一種創新的AI推理最佳化協議,它直接以令牌ID作為網路傳輸格式,避免了傳統AI推理棧中反覆的解令牌化(detokenize)和重新令牌化(re-tokenize)過程。在當前的AI系統中,模型處理的是令牌,但中介軟體(如閘道器、路由器、工具排程器)都基於文本工作,導致每次資料交換都需要將令牌ID轉換為文本、包裝成JSON、傳輸、解析、再轉換回令牌ID,這一過程消耗大量CPU、記憶體和延遲,並可能引發KV快取損壞。Codec透過保持令牌ID格式,使得閘道器、工具排程器和跨模型轉換都直接在原始令牌ID上操作,消除了冗餘轉換。
在實際測試中,Codec在真實代理流量下通常減少16倍的資料傳輸量,在內容壓縮良好的情況下可減少高達1700倍。對於移動裝置,這意味著更快的響應速度和更低的雲成本。在大型叢集規模下,可以節省大量網路能源和中介軟體CPU資源。Codec相容現有的AI伺服器(如sglang、vllm、llama.cpp),支援TypeScript、Python、Rust、Java、.NET和C等客戶端庫,並且無需修改現有程式碼。
Codec的主要優勢包括:
- 節省成本:基於重型代理基準(工具使用+A2A),全球AI行業每年可節省約4億美元,包括雲出口、GPU阻塞請求和衛星網路費用。
- 提升移動端效能:在10 Mbps的4G網路上,2K令牌的回覆速度可提升10倍。
- 降低環境影響:目前每年可減少約400輛汽車的碳排放,到2030年可減少約4000輛。
- 擴大可訪問性:使約50億原本因網路限制無法使用AI的使用者能夠接入。
此外,Codec提供了三種核心操作:路由、分發和翻譯,所有操作都在原始令牌ID上執行。MCP(模型上下文協議)路徑中,Codec可以避免工具結果的重新令牌化,使得工具列表傳輸量從21.4 KB降至5.9 KB,工具檢測速度提升26.7倍。在跨模型轉換場景下,例如從Llama-3代理到Qwen-2代理,Codec僅需709位元組,而傳統JSON-SSE需要10.4 KB,同時保證輸出位元組一致性。
Codec也支援擴散模型(如Stable Diffusion),透過傳輸潛在表示而非解碼畫素,在512×512影像上,int4量化後僅需8.4 KB,比原始fp16畫素小180倍,比JPEG小10倍。
總之,Codec不是一個推理加速器,它不改變GPU上的計算速度,而是透過最佳化網路和CPU環節來降低成本。它尤其適合當前多跳、工具密集的AI應用場景,每個可見回覆背後有約4倍的內部流量。Codec的開源特性有望推動AI基礎設施的變革,讓更多使用者和地區受益。