DFlash:实现3倍LLM推理速度
本文介绍了DFlash,一种新型推测解码技术,通过并行预测多个令牌突破EAGLE的2倍加速上限。Baseten的实现基于Qwen3-8B模型,在各种基准测试中实现约3倍加速,比vLLM快10-30%。文章详细解释了DFlash的工作原理、训练方法及与EAGLE和vLLM的性能对比。
大型语言模型(LLM)本质上一次只能生成一个令牌,这限制了推理速度。推测解码(Speculative Decoding)通过使用小型草稿模型提出令牌,再由目标模型并行验证,已成为提升推理效率的关键技术。EAGLE系列(EAGLE、EAGLE-2、EAGLE-3)利用目标模型的隐藏状态预测草稿令牌,但因其自回归特性——每个预测令牌都需要一次前向传播——实际加速通常被限制在2倍左右。
DFlash于2026年2月发布,旨在突破这一局限。其核心创新在于:通过双向注意力机制,在一次前向传播中并行预测多个令牌(γ个)。尽管单个DFlash草稿模型的前向传播比EAGLE慢2-4倍,但它能一次性预测8-16个令牌,远超EAGLE的1个。这使得DFlash的整个草稿阶段比EAGLE更快,同时草稿质量更高。
Baseten的推理堆栈对DFlash进行了深度优化。他们从目标模型的5-6个均匀分布的层提取隐藏状态,经过投影后构建每个DFlash层的KV缓存。通过定制前向传播机制和选择最快的后端,Baseten实现了比vLLM和SGLang更快的速度,并支持引导解码。
在性能测试中,Baseten使用单个B200 GPU和Qwen3-8B模型,在三个基准上评估了推理延迟和吞吐量。GSM8k测试中,实现654 TPS的吞吐量(基线3倍提升)和1.2秒延迟(2.9倍提升)。MATH-500和NVIDIA Nemotron数据集上同样表现出色,吞吐量提升2.7-3.1倍,延迟降低2.6-2.9倍。值得注意的是,SGLang的DFlash实现因输出循环问题导致结果不可靠,因此未纳入最终比较。
DFlash草稿模型的训练需要两个输入:输入ID和目标模型隐藏状态。训练时随机选取锚点,将锚点前的令牌作为上下文,锚点后的block_size个令牌作为目标,使用标准交叉熵损失进行去噪。由于早期令牌在推测解码中更重要,损失函数按指数衰减权重分配,确保模型优先学习早期令牌的预测。
Baseten表示,如果用户有特定需求,他们可以从头训练DFlash草稿模型。对于希望采用该技术的团队,Baseten提供了与工程师直接沟通的渠道。