DeepSeek发布DSpark:一种投机解码框架,将DeepSeek-V4每用户生成速度提升60-85%
DeepSeek开源了DSpark,一种投机解码框架,通过附加草稿模块到现有DeepSeek-V4权重上。它结合并行草稿骨干和轻量级马尔可夫头以减少后缀衰减,并加入基于置信度的调度验证,根据实时GPU负载调整检查的令牌数量。离线测试中,接受长度比DFlash和Eagle3提升16-31%;生产环境下,每用户生成速度比MTP-1基线提升57-85%,且无损。训练代码库DeepSpec采用MIT许可证。
DeepSeek发布了DSpark,一种投机解码框架,并开源了检查点和训练代码。DSpark是一种服务优化,而非新模型。检查点DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark复用了现有V4权重,附加了草稿模块。
DeepSeek研究团队还开源了DeepSpec,一个基于MIT许可证的代码库,用于训练和评估投机解码草稿器。该工作针对一个问题:在繁忙的生产服务中加速大型模型推理。
工作原理
DSpark将草稿生成分为两个阶段。一个重的并行骨干(基于DFlash)为每个位置生成基础logits,然后一个轻量级顺序头(默认是马尔可夫头,仅看前一个令牌)添加前缀依赖偏置后采样每个令牌。这种半自回归方式结合了并行草稿的快速性和顺序草稿的高接受率。
基于置信度的验证使用置信度头为每个草稿位置打分,估计通过验证的概率。然后经过序列温度缩放校准,并由硬件感知前缀调度器根据GPU负载动态调整验证长度。当GPU空闲时验证更多令牌,繁忙时减少。
性能指标
离线测试涵盖数学、代码和日常聊天。DSpark在所有领域都优于基线。针对Eagle3,宏观平均接受长度在Qwen3不同尺寸上提升26.7-30.9%;针对DFlash提升16.3-18.4%。2层DSpark甚至优于5层DFlash。
生产结果来自DeepSeek-V4-Flash和V4-Pro在真实流量下。基线为MTP-1。在匹配吞吐量下,每用户速度在Flash上提升60-85%,在Pro上提升57-78%。
使用场景
结构化任务(如代码生成)受益最大,因为接受率高,调度器可验证长前缀。开放聊天通过置信度阈值将接受率从45.7%提升至95.7%。数学推理接受率从76.9%提升至92.5%。高并发服务是主要用例,调度器在中等负载下验证约4-6个令牌,高并发时减少以保护吞吐量。
尝试使用
DeepSpec支持数据准备、训练和评估三个阶段。默认配置假设1节点8GPU。对于生产检查点,草稿模块附加到现有V4权重,无需重新训练目标模型。Hugging Face卡片包含最小推理示例。