2026-06-28 00:59 UTC+8站内改写1 分钟阅读更新: 2026-06-28 01:20 UTC+8

DeepSeek发布DSpark：一种投机解码框架，将DeepSeek-V4每用户生成速度提升60-85%

DeepSeek开源了DSpark，一种投机解码框架，通过附加草稿模块到现有DeepSeek-V4权重上。它结合并行草稿骨干和轻量级马尔可夫头以减少后缀衰减，并加入基于置信度的调度验证，根据实时GPU负载调整检查的令牌数量。离线测试中，接受长度比DFlash和Eagle3提升16-31%；生产环境下，每用户生成速度比MTP-1基线提升57-85%，且无损。训练代码库DeepSpec采用MIT许可证。

来源MarkTechPost作者: Asif Razzaq

DeepSeek发布了DSpark，一种投机解码框架，并开源了检查点和训练代码。DSpark是一种服务优化，而非新模型。检查点DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark复用了现有V4权重，附加了草稿模块。

DeepSeek研究团队还开源了DeepSpec，一个基于MIT许可证的代码库，用于训练和评估投机解码草稿器。该工作针对一个问题：在繁忙的生产服务中加速大型模型推理。

工作原理

DSpark将草稿生成分为两个阶段。一个重的并行骨干（基于DFlash）为每个位置生成基础logits，然后一个轻量级顺序头（默认是马尔可夫头，仅看前一个令牌）添加前缀依赖偏置后采样每个令牌。这种半自回归方式结合了并行草稿的快速性和顺序草稿的高接受率。

基于置信度的验证使用置信度头为每个草稿位置打分，估计通过验证的概率。然后经过序列温度缩放校准，并由硬件感知前缀调度器根据GPU负载动态调整验证长度。当GPU空闲时验证更多令牌，繁忙时减少。

性能指标

离线测试涵盖数学、代码和日常聊天。DSpark在所有领域都优于基线。针对Eagle3，宏观平均接受长度在Qwen3不同尺寸上提升26.7-30.9%；针对DFlash提升16.3-18.4%。2层DSpark甚至优于5层DFlash。

生产结果来自DeepSeek-V4-Flash和V4-Pro在真实流量下。基线为MTP-1。在匹配吞吐量下，每用户速度在Flash上提升60-85%，在Pro上提升57-78%。

使用场景

结构化任务（如代码生成）受益最大，因为接受率高，调度器可验证长前缀。开放聊天通过置信度阈值将接受率从45.7%提升至95.7%。数学推理接受率从76.9%提升至92.5%。高并发服务是主要用例，调度器在中等负载下验证约4-6个令牌，高并发时减少以保护吞吐量。

尝试使用

DeepSpec支持数据准备、训练和评估三个阶段。默认配置假设1节点8GPU。对于生产检查点，草稿模块附加到现有V4权重，无需重新训练目标模型。Hugging Face卡片包含最小推理示例。