2026-05-17站内改写2 分で読了更新: 2026-06-12

AIに年間4億ドルを節約し、40億人をオンラインにする安価な修正

Codecは、トークンIDをエンドツーエンドのワイヤー形式として保持することで、AI推論スタックにおける繰り返しのデトークン化と再トークン化を排除する新しいプロトコルです。データ量を16〜1700倍削減し、世界のAIコストを年間約4億ドル節約し、低速または高価な接続環境にある約50億人のユーザーがAIを利用できるようにします。

ソースHacker News AI著者: Zombwaffle

記事インテリジェンス

エンジニア上級

要点

CodecはJSON-SSEの代わりにトークンIDを直接送信し、ワイヤーデータを16〜1700倍削減します。
クラウドエグレス、GPUブロック済みプロンプト、Starlinkコストなどにより、年間約4億ドルを節約します。
接続環境の悪い約50億人のユーザーがAIを利用可能になります。
ツールディスパッチやクロスモデルハンドオフが生のトークンIDで実行され、効率が10倍以上向上します。

重要な理由

このニュースが重要なのは、CodecはJSON-SSEの代わりにトークンIDを直接送信し、ワイヤーデータを16〜1700倍削減しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Codecは、AI推論のための革新的なプロトコルです。従来のAIシステムでは、モデルがトークンを処理する一方で、ミドルウェア（ゲートウェイ、ルーター、ツールディスパッチャーなど）はすべてテキストベースで動作するため、データ交換のたびにトークンIDをテキストに変換し、JSONでラップし、転送し、解析し、再度トークンIDに戻すというプロセスが必要でした。このプロセスはCPU、メモリ、レイテンシを消費し、KVキャッシュの破損リスクもありました。CodecはトークンIDをワイヤー形式として維持することで、ゲートウェイ、ツールディスパッチャー、クロスモデル変換をすべて生のトークンIDで直接操作できるようにし、冗長な変換を排除します。

実際のテストでは、Codecは本番のエージェントトラフィックで通常16倍、コンテンツがよく圧縮される場合は最大1700倍のデータ削減を達成しました。モバイルデバイスでは応答が速くなり、クラウドコストが削減されます。大規模クラスターでは、誰も読まないバイトを転送するためのネットワークエネルギーとミドルウェアCPUを節約できます。Codecは既存のAIサーバー（sglang、vllm、llama.cpp）と互換性があり、TypeScript、Python、Rust、Java、.NET、Cのクライアントライブラリを提供し、既存のコードを変更する必要はありません。

Codecの主な利点：

コスト削減：ヘビーエージェントベースライン（ツール使用+A2A）では、世界のAI業界で年間約4億ドルの節約が見込まれます（クラウドエグレス、GPUブロック済みプロンプト、Starlinkコストを含む）。
モバイル性能の向上：10 Mbpsの4Gネットワークで2Kトークンの応答が最大10倍高速化。
環境負荷の低減：現在、年間約400台の自動車に相当するCO2排出を削減し、2030年には約4,000台分に拡大。
アクセシビリティの拡大：ネットワーク制限によりAIを利用できなかった約50億人のユーザーがアクセス可能に。

Codecは3つの基本操作（ルーティング、ディスパッチ、トランスレート）を提供し、すべて生のトークンID上で実行されます。MCPパスでは、ツール結果の再トークン化を回避し、ツール一覧の転送量が21.4 KBから5.9 KBに削減され、ツール検出速度が26.7倍向上します。クロスモデル変換（Llama-3からQwen-2など）では、Codecはわずか709バイトで済み、従来のJSON-SSEでは10.4 KB必要でしたが、出力は完全に同一です。

拡散モデル（Stable Diffusionなど）にも対応し、ピクセルではなく潜在表現を転送することで、512×512画像でint4量子化時には8.4 KBに圧縮され、生のfp16ピクセルと比較して180倍、JPEGと比較して10倍小さくなります。

Codecは推論アクセラレータではなく、GPUの計算速度は変えませんが、ネットワークとCPUのボトルネックを解消します。特に、マルチホップでツール集約的な現在のAIアプリケーションにおいて効果を発揮し、オープンソースとして提供されることでAIインフラの変革を促進します。