AIに年間4億ドルを節約し、40億人をオンラインにする安価な修正
Codecは、トークンIDをエンドツーエンドのワイヤー形式として保持することで、AI推論スタックにおける繰り返しのデトークン化と再トークン化を排除する新しいプロトコルです。データ量を16〜1700倍削減し、世界のAIコストを年間約4億ドル節約し、低速または高価な接続環境にある約50億人のユーザーがAIを利用できるようにします。
Codecは、AI推論のための革新的なプロトコルです。従来のAIシステムでは、モデルがトークンを処理する一方で、ミドルウェア(ゲートウェイ、ルーター、ツールディスパッチャーなど)はすべてテキストベースで動作するため、データ交換のたびにトークンIDをテキストに変換し、JSONでラップし、転送し、解析し、再度トークンIDに戻すというプロセスが必要でした。このプロセスはCPU、メモリ、レイテンシを消費し、KVキャッシュの破損リスクもありました。CodecはトークンIDをワイヤー形式として維持することで、ゲートウェイ、ツールディスパッチャー、クロスモデル変換をすべて生のトークンIDで直接操作できるようにし、冗長な変換を排除します。
実際のテストでは、Codecは本番のエージェントトラフィックで通常16倍、コンテンツがよく圧縮される場合は最大1700倍のデータ削減を達成しました。モバイルデバイスでは応答が速くなり、クラウドコストが削減されます。大規模クラスターでは、誰も読まないバイトを転送するためのネットワークエネルギーとミドルウェアCPUを節約できます。Codecは既存のAIサーバー(sglang、vllm、llama.cpp)と互換性があり、TypeScript、Python、Rust、Java、.NET、Cのクライアントライブラリを提供し、既存のコードを変更する必要はありません。
Codecの主な利点:
- コスト削減:ヘビーエージェントベースライン(ツール使用+A2A)では、世界のAI業界で年間約4億ドルの節約が見込まれます(クラウドエグレス、GPUブロック済みプロンプト、Starlinkコストを含む)。
- モバイル性能の向上:10 Mbpsの4Gネットワークで2Kトークンの応答が最大10倍高速化。
- 環境負荷の低減:現在、年間約400台の自動車に相当するCO2排出を削減し、2030年には約4,000台分に拡大。
- アクセシビリティの拡大:ネットワーク制限によりAIを利用できなかった約50億人のユーザーがアクセス可能に。
Codecは3つの基本操作(ルーティング、ディスパッチ、トランスレート)を提供し、すべて生のトークンID上で実行されます。MCPパスでは、ツール結果の再トークン化を回避し、ツール一覧の転送量が21.4 KBから5.9 KBに削減され、ツール検出速度が26.7倍向上します。クロスモデル変換(Llama-3からQwen-2など)では、Codecはわずか709バイトで済み、従来のJSON-SSEでは10.4 KB必要でしたが、出力は完全に同一です。
拡散モデル(Stable Diffusionなど)にも対応し、ピクセルではなく潜在表現を転送することで、512×512画像でint4量子化時には8.4 KBに圧縮され、生のfp16ピクセルと比較して180倍、JPEGと比較して10倍小さくなります。
Codecは推論アクセラレータではなく、GPUの計算速度は変えませんが、ネットワークとCPUのボトルネックを解消します。特に、マルチホップでツール集約的な現在のAIアプリケーションにおいて効果を発揮し、オープンソースとして提供されることでAIインフラの変革を促進します。