AI News HubLIVE
站内改写2 分钟阅读

一个廉价修复方案,每年为AI节省4亿美元,并让40亿人接入网络

Codec是一种新型协议,通过在网络传输中保持令牌ID格式,避免反复的解令牌化和重新令牌化,从而大幅减少数据量、降低延迟和成本。它有望每年为全球AI行业节省约4亿美元,并使约50亿用户能够在低速、昂贵的网络上使用AI。

来源Hacker News AI作者: Zombwaffle

Codec是一种创新的AI推理优化协议,它直接以令牌ID作为网络传输格式,避免了传统AI推理栈中反复的解令牌化(detokenize)和重新令牌化(re-tokenize)过程。在当前的AI系统中,模型处理的是令牌,但中间件(如网关、路由器、工具调度器)都基于文本工作,导致每次数据交换都需要将令牌ID转换为文本、包装成JSON、传输、解析、再转换回令牌ID,这一过程消耗大量CPU、内存和延迟,并可能引发KV缓存损坏。Codec通过保持令牌ID格式,使得网关、工具调度器和跨模型转换都直接在原始令牌ID上操作,消除了冗余转换。

在实际测试中,Codec在真实代理流量下通常减少16倍的数据传输量,在内容压缩良好的情况下可减少高达1700倍。对于移动设备,这意味着更快的响应速度和更低的云成本。在大型集群规模下,可以节省大量网络能源和中间件CPU资源。Codec兼容现有的AI服务器(如sglang、vllm、llama.cpp),支持TypeScript、Python、Rust、Java、.NET和C等客户端库,并且无需修改现有代码。

Codec的主要优势包括:

  • 节省成本:基于重型代理基准(工具使用+A2A),全球AI行业每年可节省约4亿美元,包括云出口、GPU阻塞请求和卫星网络费用。
  • 提升移动端性能:在10 Mbps的4G网络上,2K令牌的回复速度可提升10倍。
  • 降低环境影响:目前每年可减少约400辆汽车的碳排放,到2030年可减少约4000辆。
  • 扩大可访问性:使约50亿原本因网络限制无法使用AI的用户能够接入。

此外,Codec提供了三种核心操作:路由、分发和翻译,所有操作都在原始令牌ID上执行。MCP(模型上下文协议)路径中,Codec可以避免工具结果的重新令牌化,使得工具列表传输量从21.4 KB降至5.9 KB,工具检测速度提升26.7倍。在跨模型转换场景下,例如从Llama-3代理到Qwen-2代理,Codec仅需709字节,而传统JSON-SSE需要10.4 KB,同时保证输出字节一致性。

Codec也支持扩散模型(如Stable Diffusion),通过传输潜在表示而非解码像素,在512×512图像上,int4量化后仅需8.4 KB,比原始fp16像素小180倍,比JPEG小10倍。

总之,Codec不是一个推理加速器,它不改变GPU上的计算速度,而是通过优化网络和CPU环节来降低成本。它尤其适合当前多跳、工具密集的AI应用场景,每个可见回复背后有约4倍的内部流量。Codec的开源特性有望推动AI基础设施的变革,让更多用户和地区受益。