AI News HubLIVE
站內改寫1 分鐘閱讀

DFlash:實現3倍LLM推理速度

本文介紹了DFlash,一種新型推測解碼技術,通過並行預測多個令牌突破EAGLE的2倍加速上限。Baseten的實現基於Qwen3-8B模型,在各種基準測試中實現約3倍加速,比vLLM快10-30%。文章詳細解釋了DFlash的工作原理、訓練方法及與EAGLE和vLLM的性能對比。

大型語言模型(LLM)本質上一次只能生成一個令牌,這限制了推理速度。推測解碼(Speculative Decoding)通過使用小型草稿模型提出令牌,再由目標模型並行驗證,已成為提升推理效率的關鍵技術。EAGLE系列(EAGLE、EAGLE-2、EAGLE-3)利用目標模型的隱藏狀態預測草稿令牌,但因其自迴歸特性——每個預測令牌都需要一次前向傳播——實際加速通常被限制在2倍左右。

DFlash於2026年2月發佈,旨在突破這一侷限。其核心創新在於:通過雙向注意力機制,在一次前向傳播中並行預測多個令牌(γ個)。儘管單個DFlash草稿模型的前向傳播比EAGLE慢2-4倍,但它能一次性預測8-16個令牌,遠超EAGLE的1個。這使得DFlash的整個草稿階段比EAGLE更快,同時草稿質量更高。

Baseten的推理堆棧對DFlash進行了深度優化。他們從目標模型的5-6個均勻分佈的層提取隱藏狀態,經過投影后構建每個DFlash層的KV緩存。通過定製前向傳播機制和選擇最快的後端,Baseten實現了比vLLM和SGLang更快的速度,並支持引導解碼。

在性能測試中,Baseten使用單個B200 GPU和Qwen3-8B模型,在三個基準上評估了推理延遲和吞吐量。GSM8k測試中,實現654 TPS的吞吐量(基線3倍提升)和1.2秒延遲(2.9倍提升)。MATH-500和NVIDIA Nemotron數據集上同樣表現出色,吞吐量提升2.7-3.1倍,延遲降低2.6-2.9倍。值得注意的是,SGLang的DFlash實現因輸出循環問題導致結果不可靠,因此未納入最終比較。

DFlash草稿模型的訓練需要兩個輸入:輸入ID和目標模型隱藏狀態。訓練時隨機選取錨點,將錨點前的令牌作為上下文,錨點後的block_size個令牌作為目標,使用標準交叉熵損失進行去噪。由於早期令牌在推測解碼中更重要,損失函數按指數衰減權重分配,確保模型優先學習早期令牌的預測。

Baseten表示,如果用户有特定需求,他們可以從頭訓練DFlash草稿模型。對於希望採用該技術的團隊,Baseten提供了與工程師直接溝通的渠道。