DeepSeek、DSparkを発表:投機的デコードフレームワークでDeepSeek-V4のユーザーあたり生成速度を60~85%向上
DeepSeekは、既存のDeepSeek-V4重みにドラフトモジュールを追加する投機的デコードフレームワークDSparkをオープンソース化しました。並列ドラフトバックボーンと軽量なマルコフヘッドを組み合わせてサフィックス減衰を抑制し、信頼度スケジュール検証によりGPU負荷に応じてチェックするトークン数を調整します。オフラインでは、DFlashやEagle3と比較して受理長が16~31%向上。本番環境では、MTP-1ベースラインと比較してユーザーあたり生成速度が57~85%向上し、損失はありません。トレーニングリポジトリDeepSpecはMITライセンスで提供されます。
DeepSeekはDSpark(投機的デコードフレームワーク)を公開し、チェックポイントとトレーニングコードをオープンソース化しました。DSparkは新しいモデルではなく、サービス最適化技術です。チェックポイントDeepSeek-V4-Pro-DSparkおよびDeepSeek-V4-Flash-DSparkは、既存のV4重みにドラフトモジュールを追加したものです。
DeepSeek研究チームはまた、投機的デコードドラフターのトレーニングと評価のためのMITライセンスのコードベースDeepSpecを公開しました。この研究の目標は、忙しい本番サービスにおける大規模モデル推論の高速化です。
仕組み
DSparkはドラフト生成を2段階に分割します。重い並列バックボーン(DFlashベース)が各位置のベースロジットを生成し、軽量な順次ヘッド(デフォルトは直前トークンのみを見るマルコフヘッド)が各トークンのサンプリング前にプレフィックス依存のバイアスを追加します。この半自己回帰方式により、並列ドラフトの高速性と順次ドラフトの高受理率を兼ね備えます。
信頼度スケジュール検証では、信頼度ヘッドが各ドラフト位置のスコアを出力し、検証を通る確率を推定します。次に系列温度スケーリングでキャリブレーションされ、ハードウェア認識プレフィックススケジューラがGPU負荷に応じて検証長を動的に調整します。GPUがアイドル時はより多くのトークンを検証し、ビジー時は少なくします。
パフォーマンス指標
オフラインテストは数学、コード、日常会話をカバー。DSparkは全領域でベースラインを上回ります。Eagle3に対して、マクロ平均受理長はQwen3の各サイズで26.7-30.9%向上。DFlashに対しては16.3-18.4%向上。2層DSparkは5層DFlashをも凌ぎます。
本番結果はDeepSeek-V4-FlashおよびV4-Proの実トラフィック下でのもの。ベースラインはMTP-1です。スループットを一致させた場合、Flashで60-85%、Proで57-78%のユーザーあたり速度向上を達成。
ユースケース
構造化タスク(コード生成など)は最大の恩恵を受けます。受理率が高く、スケジューラは長いプレフィックスを無駄なく検証できます。オープンエンドチャットでは信頼度しきい値スイープにより受理率が45.7%から95.7%に向上。数学推論では76.9%から92.5%に向上しました。高並行サービスが主要ユースケースで、中程度の負荷ではスケジューラはリクエストあたり約4-6トークンを検証し、高並行時には予算を削減してスループットを保護します。
試用方法
DeepSpecはデータ準備、トレーニング、評価の3段階で動作します。デフォルト設定は1ノード8GPUを想定。本番チェックポイントの場合、ドラフトモジュールは既存のV4重みにアタッチされ、ターゲットモデルの再トレーニングは不要です。Hugging Faceカードには最小推論例が含まれています。