一個廉價修復方案,每年為AI節省4億美元,並讓40億人接入網絡
Codec是一種新型協議,通過在網絡傳輸中保持令牌ID格式,避免反覆的解令牌化和重新令牌化,從而大幅減少數據量、降低延遲和成本。它有望每年為全球AI行業節省約4億美元,並使約50億用户能夠在低速、昂貴的網絡上使用AI。
Codec是一種創新的AI推理優化協議,它直接以令牌ID作為網絡傳輸格式,避免了傳統AI推理棧中反覆的解令牌化(detokenize)和重新令牌化(re-tokenize)過程。在當前的AI系統中,模型處理的是令牌,但中間件(如網關、路由器、工具調度器)都基於文本工作,導致每次數據交換都需要將令牌ID轉換為文本、包裝成JSON、傳輸、解析、再轉換回令牌ID,這一過程消耗大量CPU、內存和延遲,並可能引發KV緩存損壞。Codec通過保持令牌ID格式,使得網關、工具調度器和跨模型轉換都直接在原始令牌ID上操作,消除了冗餘轉換。
在實際測試中,Codec在真實代理流量下通常減少16倍的數據傳輸量,在內容壓縮良好的情況下可減少高達1700倍。對於移動設備,這意味着更快的響應速度和更低的雲成本。在大型集羣規模下,可以節省大量網絡能源和中間件CPU資源。Codec兼容現有的AI服務器(如sglang、vllm、llama.cpp),支持TypeScript、Python、Rust、Java、.NET和C等客户端庫,並且無需修改現有代碼。
Codec的主要優勢包括:
- 節省成本:基於重型代理基準(工具使用+A2A),全球AI行業每年可節省約4億美元,包括雲出口、GPU阻塞請求和衞星網絡費用。
- 提升移動端性能:在10 Mbps的4G網絡上,2K令牌的回覆速度可提升10倍。
- 降低環境影響:目前每年可減少約400輛汽車的碳排放,到2030年可減少約4000輛。
- 擴大可訪問性:使約50億原本因網絡限制無法使用AI的用户能夠接入。
此外,Codec提供了三種核心操作:路由、分發和翻譯,所有操作都在原始令牌ID上執行。MCP(模型上下文協議)路徑中,Codec可以避免工具結果的重新令牌化,使得工具列表傳輸量從21.4 KB降至5.9 KB,工具檢測速度提升26.7倍。在跨模型轉換場景下,例如從Llama-3代理到Qwen-2代理,Codec僅需709字節,而傳統JSON-SSE需要10.4 KB,同時保證輸出字節一致性。
Codec也支持擴散模型(如Stable Diffusion),通過傳輸潛在表示而非解碼像素,在512×512圖像上,int4量化後僅需8.4 KB,比原始fp16像素小180倍,比JPEG小10倍。
總之,Codec不是一個推理加速器,它不改變GPU上的計算速度,而是通過優化網絡和CPU環節來降低成本。它尤其適合當前多跳、工具密集的AI應用場景,每個可見回覆背後有約4倍的內部流量。Codec的開源特性有望推動AI基礎設施的變革,讓更多用户和地區受益。