2026-06-28 00:59 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-28 01:20 UTC+8

DeepSeek發佈DSpark：一種投機解碼框架，將DeepSeek-V4每用户生成速度提升60-85%

DeepSeek開源了DSpark，一種投機解碼框架，通過附加草稿模塊到現有DeepSeek-V4權重上。它結合並行草稿骨幹和輕量級馬爾可夫頭以減少後綴衰減，並加入基於置信度的調度驗證，根據實時GPU負載調整檢查的令牌數量。離線測試中，接受長度比DFlash和Eagle3提升16-31%；生產環境下，每用户生成速度比MTP-1基線提升57-85%，且無損。訓練代碼庫DeepSpec採用MIT許可證。

來源MarkTechPost作者: Asif Razzaq

DeepSeek發佈了DSpark，一種投機解碼框架，並開源了檢查點和訓練代碼。DSpark是一種服務優化，而非新模型。檢查點DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark複用了現有V4權重，附加了草稿模塊。

DeepSeek研究團隊還開源了DeepSpec，一個基於MIT許可證的代碼庫，用於訓練和評估投機解碼草稿器。該工作針對一個問題：在繁忙的生產服務中加速大型模型推理。

工作原理

DSpark將草稿生成分為兩個階段。一個重的並行骨幹（基於DFlash）為每個位置生成基礎logits，然後一個輕量級順序頭（默認是馬爾可夫頭，僅看前一個令牌）添加前綴依賴偏置後採樣每個令牌。這種半自迴歸方式結合了並行草稿的快速性和順序草稿的高接受率。

基於置信度的驗證使用置信度頭為每個草稿位置打分，估計通過驗證的概率。然後經過序列温度縮放校準，並由硬件感知前綴調度器根據GPU負載動態調整驗證長度。當GPU空閒時驗證更多令牌，繁忙時減少。

性能指標

離線測試涵蓋數學、代碼和日常聊天。DSpark在所有領域都優於基線。針對Eagle3，宏觀平均接受長度在Qwen3不同尺寸上提升26.7-30.9%；針對DFlash提升16.3-18.4%。2層DSpark甚至優於5層DFlash。

生產結果來自DeepSeek-V4-Flash和V4-Pro在真實流量下。基線為MTP-1。在匹配吞吐量下，每用户速度在Flash上提升60-85%，在Pro上提升57-78%。

使用場景

結構化任務（如代碼生成）受益最大，因為接受率高，調度器可驗證長前綴。開放聊天通過置信度閾值將接受率從45.7%提升至95.7%。數學推理接受率從76.9%提升至92.5%。高併發服務是主要用例，調度器在中等負載下驗證約4-6個令牌，高併發時減少以保護吞吐量。

嘗試使用

DeepSpec支持數據準備、訓練和評估三個階段。默認配置假設1節點8GPU。對於生產檢查點，草稿模塊附加到現有V4權重，無需重新訓練目標模型。Hugging Face卡片包含最小推理示例。