AI News HubLIVE
站內改寫1 分鐘閱讀

DeepSeek發佈DSpark:一種投機解碼框架,將DeepSeek-V4每用户生成速度提升60-85%

DeepSeek開源了DSpark,一種投機解碼框架,通過附加草稿模塊到現有DeepSeek-V4權重上。它結合並行草稿骨幹和輕量級馬爾可夫頭以減少後綴衰減,並加入基於置信度的調度驗證,根據實時GPU負載調整檢查的令牌數量。離線測試中,接受長度比DFlash和Eagle3提升16-31%;生產環境下,每用户生成速度比MTP-1基線提升57-85%,且無損。訓練代碼庫DeepSpec採用MIT許可證。

來源MarkTechPost作者: Asif Razzaq

DeepSeek發佈了DSpark,一種投機解碼框架,並開源了檢查點和訓練代碼。DSpark是一種服務優化,而非新模型。檢查點DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark複用了現有V4權重,附加了草稿模塊。

DeepSeek研究團隊還開源了DeepSpec,一個基於MIT許可證的代碼庫,用於訓練和評估投機解碼草稿器。該工作針對一個問題:在繁忙的生產服務中加速大型模型推理。

工作原理

DSpark將草稿生成分為兩個階段。一個重的並行骨幹(基於DFlash)為每個位置生成基礎logits,然後一個輕量級順序頭(默認是馬爾可夫頭,僅看前一個令牌)添加前綴依賴偏置後採樣每個令牌。這種半自迴歸方式結合了並行草稿的快速性和順序草稿的高接受率。

基於置信度的驗證使用置信度頭為每個草稿位置打分,估計通過驗證的概率。然後經過序列温度縮放校準,並由硬件感知前綴調度器根據GPU負載動態調整驗證長度。當GPU空閒時驗證更多令牌,繁忙時減少。

性能指標

離線測試涵蓋數學、代碼和日常聊天。DSpark在所有領域都優於基線。針對Eagle3,宏觀平均接受長度在Qwen3不同尺寸上提升26.7-30.9%;針對DFlash提升16.3-18.4%。2層DSpark甚至優於5層DFlash。

生產結果來自DeepSeek-V4-Flash和V4-Pro在真實流量下。基線為MTP-1。在匹配吞吐量下,每用户速度在Flash上提升60-85%,在Pro上提升57-78%。

使用場景

結構化任務(如代碼生成)受益最大,因為接受率高,調度器可驗證長前綴。開放聊天通過置信度閾值將接受率從45.7%提升至95.7%。數學推理接受率從76.9%提升至92.5%。高併發服務是主要用例,調度器在中等負載下驗證約4-6個令牌,高併發時減少以保護吞吐量。

嘗試使用

DeepSpec支持數據準備、訓練和評估三個階段。默認配置假設1節點8GPU。對於生產檢查點,草稿模塊附加到現有V4權重,無需重新訓練目標模型。Hugging Face卡片包含最小推理示例。