2026-05-15 11:43 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

DFlash：实现3倍LLM推理速度

本文介绍了DFlash，一种新型推测解码技术，通过并行预测多个令牌突破EAGLE的2倍加速上限。Baseten的实现基于Qwen3-8B模型，在各种基准测试中实现约3倍加速，比vLLM快10-30%。文章详细解释了DFlash的工作原理、训练方法及与EAGLE和vLLM的性能对比。

来源Baseten Blog

大型语言模型（LLM）本质上一次只能生成一个令牌，这限制了推理速度。推测解码（Speculative Decoding）通过使用小型草稿模型提出令牌，再由目标模型并行验证，已成为提升推理效率的关键技术。EAGLE系列（EAGLE、EAGLE-2、EAGLE-3）利用目标模型的隐藏状态预测草稿令牌，但因其自回归特性——每个预测令牌都需要一次前向传播——实际加速通常被限制在2倍左右。

DFlash于2026年2月发布，旨在突破这一局限。其核心创新在于：通过双向注意力机制，在一次前向传播中并行预测多个令牌（γ个）。尽管单个DFlash草稿模型的前向传播比EAGLE慢2-4倍，但它能一次性预测8-16个令牌，远超EAGLE的1个。这使得DFlash的整个草稿阶段比EAGLE更快，同时草稿质量更高。

Baseten的推理堆栈对DFlash进行了深度优化。他们从目标模型的5-6个均匀分布的层提取隐藏状态，经过投影后构建每个DFlash层的KV缓存。通过定制前向传播机制和选择最快的后端，Baseten实现了比vLLM和SGLang更快的速度，并支持引导解码。

在性能测试中，Baseten使用单个B200 GPU和Qwen3-8B模型，在三个基准上评估了推理延迟和吞吐量。GSM8k测试中，实现654 TPS的吞吐量（基线3倍提升）和1.2秒延迟（2.9倍提升）。MATH-500和NVIDIA Nemotron数据集上同样表现出色，吞吐量提升2.7-3.1倍，延迟降低2.6-2.9倍。值得注意的是，SGLang的DFlash实现因输出循环问题导致结果不可靠，因此未纳入最终比较。

DFlash草稿模型的训练需要两个输入：输入ID和目标模型隐藏状态。训练时随机选取锚点，将锚点前的令牌作为上下文，锚点后的block_size个令牌作为目标，使用标准交叉熵损失进行去噪。由于早期令牌在推测解码中更重要，损失函数按指数衰减权重分配，确保模型优先学习早期令牌的预测。

Baseten表示，如果用户有特定需求，他们可以从头训练DFlash草稿模型。对于希望采用该技术的团队，Baseten提供了与工程师直接沟通的渠道。