Redisの父がDeepSeek V4専用の推論エンジンを開発:ds4.c
Redisの生みの親であるantirez(Salvatore Sanfilippo)が、DeepSeek V4 Flash専用の軽量推論エンジンds4.cをオープンソース化。Apple Silicon搭載Mac上でMetal APIを使用し、最大27トークン/秒の生成速度を実現。
記事インテリジェンス
要点
- antirezがDeepSeek V4 Flash専用の推論エンジンds4.cを公開。Metalのみ対応で、他のモデルはサポートしない。
- 非対称量子化(MoEエキスパート層は2ビット、その他はQ8)とディスクベースKVキャッシュにより高速化。
- OpenAIおよびAnthropic APIとの互換性を内蔵し、Claude Codeなどのエージェントと容易に統合可能。
- モデル固有フレームワークの議論を呼ぶ。antirezはフルスタックローカル推論を製品として提唱。
重要な理由
このニュースが重要なのは、antirezがDeepSeek V4 Flash専用の推論エンジンds4.cを公開。Metalのみ対応で、他のモデルはサポートしないためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Salvatore Sanfilippo、通称antirezは、Redisの生みの親として知られるプログラマーだが、今度はDeepSeek V4 Flash専用に設計された推論エンジン「ds4.c」をリリースした。このプロジェクトはすでに開発者コミュニティで大きな注目を集めており、高性能Mac上での実行報告が相次いでいる。
DeepSeek V4 Flashは4月末にリリースされたMixture-of-Experts(MoE)モデルで、総パラメータ数2840億、有効パラメータ数はトークンあたり130億、100万トークンのコンテキストウィンドウを備える。通常、このような大規模モデルはクラウドGPUインフラを必要とするが、antirezはこれをローカルマシン、特にApple Silicon搭載Macで動作させることを目指した。
ds4.cはすべてC、Objective-C、そしてAppleのグラフィックス・計算APIであるMetalで記述されている。llama.cppやCUDAといった既存フレームワークには依存せず、Apple Siliconに特化している。この狭い焦点により極限の最適化が可能となった。ベンチマークによれば、128GB RAMのMacBook Pro M3 Maxで2ビット量子化を用いた場合、プリフィル速度58.52トークン/秒、生成速度26.68トークン/秒を達成。512GBのMac Studio M3 Ultraでは、長いプロンプトに対してプリフィル速度が468トークン/秒に達する。
技術的な革新点として、非対称量子化が挙げられる。MoEエキスパート層のみをIQ2_XXSやQ2_Kで2ビット量子化し、共有エキスパート層、プロジェクション層、ルーティング層はQ8精度を維持する。これにより、重要な部分の精度を保ちながら、2ビット量子化でもコーディングエージェントのタスクで信頼性の高い動作を実現している。
もう一つの特徴はディスクベースのKVキャッシュである。毎回プリフィルを再計算する代わりに、トークン系列のSHA1ハッシュをキーとしてKVキャッシュ状態をディスクに保存。後続のリクエストではプレフィックスが一致すればプリフィルをスキップできる。これは毎セッション25Kトークンの初期プロンプトを送信するClaude Codeのようなエージェントに特に有効である。
エージェントワークフローでの実用性を高めるため、ds4.cはOpenAIとAnthropicの両プロトコルに対応したAPI互換レイヤーを内蔵している。/v1/chat/completions(OpenAI)および/v1/messages(Anthropic)をサポートし、ツール呼び出しにも対応。ユーザーはPiやClaude Codeなどのエージェントを直接ds4.cサーバーに接続できる。
このプロジェクトは推論フレームワークの未来について議論を巻き起こしている。Hacker Newsで人気のコメントは、GPUコストの上昇に伴い、特定のハードウェアとモデルの組み合わせに最適化されたエンジンが増える可能性を指摘。ただし、モデルが変わればエンジンも陳腐化するリスクがある。antirez自身もこのトレードオフを認めつつ、現在のDeepSeek V4 Flashへの賭けは出発点であり、少なくとも128GB RAMを搭載したハイエンド個人マシンでのローカル実行という制約は変わらないと述べている。
ds4.cの特筆すべき点は、antirezの哲学にある。彼はローカル推論を「フルスタック製品」として捉え、HTTP対応の推論エンジン、それに合わせたカスタムGGUF量子化、検証済みのエージェント統合を一体化することを提唱する。このアプローチが成功すれば、ローカルAIデプロイのあり方を変える可能性がある。
興味深いことに、antirezはds4.cの開発にあたってGPT 5.5から「強力な支援」を受けたと明かしており、人間はアイデア、テスト、デバッグを担当したという。AI支援コードに抵抗がある場合はこのソフトウェアは向いていないと警告しており、オープンソース開発におけるAIの役割の拡大を如実に示している。