AI News HubLIVE
サイト内リライト2 分で読了

DFlash:LLM推論を3倍高速化

DFlashはブロック拡散を用いた投機的デコーディング手法で、並列トークン予測によりEAGLEの約2倍の速度向上限界を打破します。Basetenの実装ではQwen3-8Bで約3倍の高速化を達成し、vLLMより10~30%高速です。

ソースBaseten Blog

大規模言語モデル(LLM)は本質的に一度に1トークンしか生成できず、推論速度が制限されます。投機的デコーディング(SpecDec)は、小型のドラフトモデルがトークンを提案し、ターゲットモデルが並列検証することで効率を向上させる手法です。EAGLEシリーズ(EAGLE、EAGLE-2、EAGLE-3)はターゲットモデルの隠れ状態を利用してドラフトトークンを予測しますが、自己回帰的な性質のため、実際の高速化は約2倍に留まることが多いです。

DFlashは2026年2月に登場し、この限界を打破しました。その核心は、双方向アテンションを用いて1回のフォワードパスで複数トークン(γ個)を並列予測することです。DFlashのドラフトモデルはEAGLEより2~4倍遅いものの、一度に8~16トークンを予測できるため、ドラフトフェーズ全体ではEAGLEより高速で、かつ高品質なドラフトを生成できます。

Basetenの推論スタックはDFlashを深く最適化しています。ターゲットモデルの5~6層から均等に隠れ状態を抽出し、投影して各DFlash層のKVキャッシュを構築します。カスタムフォワードパス機構と最速のバックエンド選択により、vLLMやSGLangよりも高速な実現を達成し、ガイド付きデコードもサポートします。

性能評価では、Basetenは単一B200 GPU上のQwen3-8Bモデルで3つのベンチマークをテストしました。GSM8kではスループット654 TPS(ベースライン比3倍)、レイテンシ1.2秒(2.9倍改善)。MATH-500とNVIDIA Nemotronデータセットでも同様に優れた結果を示し、スループット2.7~3.1倍、レイテンシ2.6~2.9倍の改善を達成しました。SGLangのDFlash実装は出力ループ問題により信頼性が低かったため、比較対象から除外されています。

DFlashドラフトモデルの訓練には、入力IDとターゲットモデルの隠れ状態が必要です。ランダムなアンカーを選択し、アンカー前をコンテキスト、アンカー後のblock_sizeトークンを目標として、標準的な交差エントロピー損失でデノイジングします。初期トークンほど重要であるため、指数減衰の重み付けを行い、予測精度を優先します。

Basetenは必要に応じてDFlashドラフトモデルをスクラッチから訓練するサービスも提供しています。この技術に興味があるチームは、Basetenのエンジニアに直接問い合わせることができます。