2026-05-17站内改写2 分钟阅读更新: 2026-06-12

一个廉价修复方案，每年为AI节省4亿美元，并让40亿人接入网络

Codec是一种新型协议，通过在网络传输中保持令牌ID格式，避免反复的解令牌化和重新令牌化，从而大幅减少数据量、降低延迟和成本。它有望每年为全球AI行业节省约4亿美元，并使约50亿用户能够在低速、昂贵的网络上使用AI。

来源Hacker News AI作者: Zombwaffle

Codec是一种创新的AI推理优化协议，它直接以令牌ID作为网络传输格式，避免了传统AI推理栈中反复的解令牌化（detokenize）和重新令牌化（re-tokenize）过程。在当前的AI系统中，模型处理的是令牌，但中间件（如网关、路由器、工具调度器）都基于文本工作，导致每次数据交换都需要将令牌ID转换为文本、包装成JSON、传输、解析、再转换回令牌ID，这一过程消耗大量CPU、内存和延迟，并可能引发KV缓存损坏。Codec通过保持令牌ID格式，使得网关、工具调度器和跨模型转换都直接在原始令牌ID上操作，消除了冗余转换。

在实际测试中，Codec在真实代理流量下通常减少16倍的数据传输量，在内容压缩良好的情况下可减少高达1700倍。对于移动设备，这意味着更快的响应速度和更低的云成本。在大型集群规模下，可以节省大量网络能源和中间件CPU资源。Codec兼容现有的AI服务器（如sglang、vllm、llama.cpp），支持TypeScript、Python、Rust、Java、.NET和C等客户端库，并且无需修改现有代码。

Codec的主要优势包括：

节省成本：基于重型代理基准（工具使用+A2A），全球AI行业每年可节省约4亿美元，包括云出口、GPU阻塞请求和卫星网络费用。
提升移动端性能：在10 Mbps的4G网络上，2K令牌的回复速度可提升10倍。
降低环境影响：目前每年可减少约400辆汽车的碳排放，到2030年可减少约4000辆。
扩大可访问性：使约50亿原本因网络限制无法使用AI的用户能够接入。

此外，Codec提供了三种核心操作：路由、分发和翻译，所有操作都在原始令牌ID上执行。MCP（模型上下文协议）路径中，Codec可以避免工具结果的重新令牌化，使得工具列表传输量从21.4 KB降至5.9 KB，工具检测速度提升26.7倍。在跨模型转换场景下，例如从Llama-3代理到Qwen-2代理，Codec仅需709字节，而传统JSON-SSE需要10.4 KB，同时保证输出字节一致性。

Codec也支持扩散模型（如Stable Diffusion），通过传输潜在表示而非解码像素，在512×512图像上，int4量化后仅需8.4 KB，比原始fp16像素小180倍，比JPEG小10倍。

总之，Codec不是一个推理加速器，它不改变GPU上的计算速度，而是通过优化网络和CPU环节来降低成本。它尤其适合当前多跳、工具密集的AI应用场景，每个可见回复背后有约4倍的内部流量。Codec的开源特性有望推动AI基础设施的变革，让更多用户和地区受益。