投機的デコードがすべて
Modalは投機的デコードに全力を注いでおり、これが最も重要な推論最適化手法であると主張しています。彼らはQwenモデル向けの最先端DFlash投機器をリリースし、5~20%の追加高速化を達成しました。本記事では、投機的デコードの原理、従来の最適化との比較、シミュレーションや数理モデルによる加速効果の説明を行っています。
最近、Modalチームはブログ記事を公開し、投機的デコード(Speculative Decoding)技術を全面的に推進しています。同技術は現在、高いインタラクティビティを備えた推論性能を実現する上で最も重要な最適化手法であり、従来のカーネル最適化では数%の改善にとどまるのに対し、投機的デコードでは2倍から3倍もの高速化が可能だと述べています。
ModalはZ Labと協力し、Qwenシリーズのモデル向けに最先端のDFlash投機器を訓練しました。これらは既存の強力なベースラインに対してさらに5~20%の速度向上を達成し、Qwen 3.5 122B-A10BモデルをB200ノード上で単一同時実行時に毎秒1000トークン以上で動作させることを可能にしました。また、超長文脈タスク(エージェント型ソフトウェア工学など)においても受容長(acceptance length)を良好に保ちます。
投機的デコードの基本原理は、マイクロプロセッサにおける投機実行と同じです。逐次的なトークン生成は高コストであるため、並列に生成したトークンを一部破棄しても全体としては効率的です。軽量な「草稿モデル」(投機器)が生成したトークンをターゲットモデルが並列に処理し、事後的に検証・修正することで、無損失かつ高速な復号を実現します。この加速は無損失であり、生成分布は元のモデルと同一です。
Modalはまた、SGLangを用いたシミュレーションと数理モデルによって、受容長が加速比に与える影響を定量的に示しました。SGLangには環境変数SGLANG_SIMULATE_ACC_LENが用意されており、実際の訓練なしに受容長を模擬できます。Qwen 3.5 27Bモデルでのベンチマークでは、受容長を1(自己回帰)から8に増やすと、出力速度が毎秒75トークンから422トークンへと5.62倍向上しました。最も単純なトイモデルでは、加速比は受容長に比例することが示されています。これらの手法により、高価な訓練を実行せずに投機的デコードの効果を予測・最適化できます。