AI News HubLIVE
站内改写1 分鐘閱讀

投機解碼:一切皆是推測

Modal團隊全面推崇投機解碼技術,認為它是當前最關鍵的高交互推理優化手段,能帶來2-3倍甚至更高的加速效果。他們與Z Lab合作訓練了針對Qwen系列模型的最先進DFlash投機解碼器,額外提升5-20%的速度,並強調了投機解碼在長上下文任務中的優勢。本文詳細解釋了投機解碼的原理、與傳統優化的對比,以及通過模擬和數學模型展示的加速效果。

近日,Modal團隊發表博客文章,全面宣揚投機解碼(Speculative Decoding)技術,稱其為當前實現高性能交互式推理的關鍵優化手段。他們與Z Lab緊密合作,訓練了針對Qwen系列模型的最先進DFlash投機解碼器(draft model),並已在Hugging Face上開源多個型號,包括Qwen 3.6 35B-A3B-DFlash、Qwen 3.5 4B-DFlash、Qwen 3.5 9B-DFlash、Qwen 3.5 27B-DFlash、Qwen 3.5 35B-A3B-DFlash和Qwen 3.5 122B-A10B-DFlash。這些新模型在已有DFlash基線之上,額外實現了5%至20%的速度提升,足以讓Qwen 3.5 122B-A10B在單併發(concurrency 1)的B200節點上達到每秒超過1000個令牌的輸出速度,相比之下無投機解碼時僅為250 tok/s。此外,這些投機器在超長上下文任務(如智能體軟件工程)中能更好地保持接受長度(acceptance length)。

Modal強調,投機解碼是唯一能夠帶來量化級加速的推理優化手段。傳統的內核優化(kernel optimization)往往耗費大量工程時間,卻只能帶來幾個百分點的提升,而投機解碼可實現2倍或3倍的整數倍加速。它們已與開源推理引擎SGLang和vLLM集成,縮小了與專有引擎的差距。更關鍵的是,當投機解碼針對特定應用數據微調時,加速效果無與倫比——這符合“Bitter Lesson”的精神:投入更多數據和計算即可自動提升性能,無需頂尖內核工程師。因此,投機解碼能夠與AI應用共享硬件、算法和規模的持續改進曲線。

為了量化加速效果,Modal通過SGLang模擬、簡單數學模型和更復雜的屋頂線模型(roofline model)展示了接受長度的重要性。在SGLang中,通過設置環境變量SGLANG_SIMULATE_ACC_LEN可以模擬接受行為,無需實際訓練。基準測試顯示,對於Qwen 3.5 27B模型,當模擬接受長度從1(自迴歸)增加到8時,輸出令牌速率從每秒75個提升至422個,加速比達5.62倍。他們開發的玩具模型(toy model)進一步表明,加速比約等於接受長度。這些工具幫助研究人員在不進行昂貴訓練的情況下預測和改進投機解碼的性能。