2026-05-15 11:43 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

DFlash：實現3倍LLM推理速度

本文介紹了DFlash，一種新型推測解碼技術，通過並行預測多個令牌突破EAGLE的2倍加速上限。Baseten的實現基於Qwen3-8B模型，在各種基準測試中實現約3倍加速，比vLLM快10-30%。文章詳細解釋了DFlash的工作原理、訓練方法及與EAGLE和vLLM的性能對比。

來源Baseten Blog

大型語言模型（LLM）本質上一次只能生成一個令牌，這限制了推理速度。推測解碼（Speculative Decoding）通過使用小型草稿模型提出令牌，再由目標模型並行驗證，已成為提升推理效率的關鍵技術。EAGLE系列（EAGLE、EAGLE-2、EAGLE-3）利用目標模型的隱藏狀態預測草稿令牌，但因其自迴歸特性——每個預測令牌都需要一次前向傳播——實際加速通常被限制在2倍左右。

DFlash於2026年2月發佈，旨在突破這一侷限。其核心創新在於：通過雙向注意力機制，在一次前向傳播中並行預測多個令牌（γ個）。儘管單個DFlash草稿模型的前向傳播比EAGLE慢2-4倍，但它能一次性預測8-16個令牌，遠超EAGLE的1個。這使得DFlash的整個草稿階段比EAGLE更快，同時草稿質量更高。

Baseten的推理堆棧對DFlash進行了深度優化。他們從目標模型的5-6個均勻分佈的層提取隱藏狀態，經過投影后構建每個DFlash層的KV緩存。通過定製前向傳播機制和選擇最快的後端，Baseten實現了比vLLM和SGLang更快的速度，並支持引導解碼。

在性能測試中，Baseten使用單個B200 GPU和Qwen3-8B模型，在三個基準上評估了推理延遲和吞吐量。GSM8k測試中，實現654 TPS的吞吐量（基線3倍提升）和1.2秒延遲（2.9倍提升）。MATH-500和NVIDIA Nemotron數據集上同樣表現出色，吞吐量提升2.7-3.1倍，延遲降低2.6-2.9倍。值得注意的是，SGLang的DFlash實現因輸出循環問題導致結果不可靠，因此未納入最終比較。

DFlash草稿模型的訓練需要兩個輸入：輸入ID和目標模型隱藏狀態。訓練時隨機選取錨點，將錨點前的令牌作為上下文，錨點後的block_size個令牌作為目標，使用標準交叉熵損失進行去噪。由於早期令牌在推測解碼中更重要，損失函數按指數衰減權重分配，確保模型優先學習早期令牌的預測。

Baseten表示，如果用户有特定需求，他們可以從頭訓練DFlash草稿模型。對於希望採用該技術的團隊，Baseten提供了與工程師直接溝通的渠道。