2026-05-15 12:43 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

DFlash：LLM推論を3倍高速化

DFlashはブロック拡散を用いた投機的デコーディング手法で、並列トークン予測によりEAGLEの約2倍の速度向上限界を打破します。Basetenの実装ではQwen3-8Bで約3倍の高速化を達成し、vLLMより10～30%高速です。

ソースBaseten Blog

記事インテリジェンス

エンジニア上級

要点

DFlashは双方向アテンションで1フォワードパスに8～16トークンを並列予測し、EAGLEの自己回帰ボトルネックを克服。
BasetenのDFlash実装はQwen3-8B上でGSM8k、MATH-500、Nemotronデータセットで約3倍の高速化。
vLLMと比較して、スループット10%向上、レイテンシ最大25%低減。
訓練にはターゲットモデルの隠れ状態と重み付き交差エントロピー損失を使用し、初期トークンの予測を優先。

重要な理由

このニュースが重要なのは、DFlashは双方向アテンションで1フォワードパスに8～16トークンを並列予測し、EAGLEの自己回帰ボトルネックを克服ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）は本質的に一度に1トークンしか生成できず、推論速度が制限されます。投機的デコーディング（SpecDec）は、小型のドラフトモデルがトークンを提案し、ターゲットモデルが並列検証することで効率を向上させる手法です。EAGLEシリーズ（EAGLE、EAGLE-2、EAGLE-3）はターゲットモデルの隠れ状態を利用してドラフトトークンを予測しますが、自己回帰的な性質のため、実際の高速化は約2倍に留まることが多いです。

DFlashは2026年2月に登場し、この限界を打破しました。その核心は、双方向アテンションを用いて1回のフォワードパスで複数トークン（γ個）を並列予測することです。DFlashのドラフトモデルはEAGLEより2～4倍遅いものの、一度に8～16トークンを予測できるため、ドラフトフェーズ全体ではEAGLEより高速で、かつ高品質なドラフトを生成できます。

Basetenの推論スタックはDFlashを深く最適化しています。ターゲットモデルの5～6層から均等に隠れ状態を抽出し、投影して各DFlash層のKVキャッシュを構築します。カスタムフォワードパス機構と最速のバックエンド選択により、vLLMやSGLangよりも高速な実現を達成し、ガイド付きデコードもサポートします。

性能評価では、Basetenは単一B200 GPU上のQwen3-8Bモデルで3つのベンチマークをテストしました。GSM8kではスループット654 TPS（ベースライン比3倍）、レイテンシ1.2秒（2.9倍改善）。MATH-500とNVIDIA Nemotronデータセットでも同様に優れた結果を示し、スループット2.7～3.1倍、レイテンシ2.6～2.9倍の改善を達成しました。SGLangのDFlash実装は出力ループ問題により信頼性が低かったため、比較対象から除外されています。

DFlashドラフトモデルの訓練には、入力IDとターゲットモデルの隠れ状態が必要です。ランダムなアンカーを選択し、アンカー前をコンテキスト、アンカー後のblock_sizeトークンを目標として、標準的な交差エントロピー損失でデノイジングします。初期トークンほど重要であるため、指数減衰の重み付けを行い、予測精度を優先します。

Basetenは必要に応じてDFlashドラフトモデルをスクラッチから訓練するサービスも提供しています。この技術に興味があるチームは、Basetenのエンジニアに直接問い合わせることができます。