2026-05-15 10:24 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

DeepSeek-V4訓練系統筆記

DeepSeek-V4的訓練系統展示了架構、路由、獎勵建模、推理模式、蒸餾和代理執行如何融入訓練循環。關鍵要點包括：混合注意力機制（CSA和HCA）、基於舊路由器的預取路由穩定方案、通過不同RL配置訓練三種推理模式、用生成式獎勵模型替代標量獎勵、先訓練領域專家再通過全詞彙logit蒸餾合併、以及將運行時整合進訓練循環的代理訓練基礎設施。這些趨勢表明固定訓練配方正在讓位於可編程訓練系統。

來源Fireworks AI Blog

DeepSeek-V4的訓練系統之所以引人注目，並非因為單一的基準數字，而是其圍繞系統的整體形態。論文展示了架構、路由、獎勵建模、推理模式、蒸餾和代理執行如何全部成為訓練循環的一部分。

對訓練基礎設施而言，明確的結論是：固定配方已不足以應對需求。研究人員越來越需要可編程循環，而平台負責底層分佈式執行、推理集成、檢查點和擴展。支持這種靈活性正是Fireworks訓練API的核心設計原則。

1. 長上下文成為記憶層次

DeepSeek-V4交替使用壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）。CSA壓縮KV條目後進行稀疏top-k選擇，HCA壓縮更激進，但保留對壓縮記憶的密集註意力。關鍵不僅是“更長上下文”，更是模型與運行時的協同設計：注意力模式、KV佈局、精度、稀疏選擇和推理內核必須對齊。訓練面臨同樣問題：如果服務使用定製內核和壓縮緩存，訓練期間的評估需要足夠接近服務，以避免針對錯誤的系統進行優化。訓練平台設計提示：訓練形狀、檢查點推進和權重同步到部署變得至關重要。架構特定工作不僅是損失函數；平台必須啓動正確的訓練器、保存可用檢查點，並評估最終為用户服務的模型/運行時組合。

2. MoE路由是一個穩定性問題

最有趣的預訓練技巧是預期路由。DeepSeek報告損失尖峯與MoE異常值和路由有關。他們的修復方法是將特徵與路由解耦：在步驟t，使用當前權重計算特徵，但路由索引來自較舊的權重θ_{t-δ}。為避免運行兩次模型，他們預取未來批次，用較舊路由器提前計算路由決策，緩存這些路由，稍後重用。他們報告在此模式激活時約20%的開銷，僅在尖峯檢測器觸發回滾時才開啓。這是一種條件性運行時干預：檢測不穩定、回滾、改變路由行為、緩存側信道數據，然後恢復正常訓練。

3. 推理努力是訓練行為

DeepSeek-V4從相同權重暴露三種模式：非思考、高思考、最大思考。這些模式使用不同的RL配置、長度懲罰、上下文窗口和回覆格式進行訓練。最大思考還獲得明確系統指令，推動詳盡推理。這使得“推理努力”不再神秘，它不僅是運行時標誌，而是由數據、獎勵設計、格式化和評估支持的行為契約。

4. 獎勵建模變得生成式

對於難以驗證的任務，DeepSeek表示放棄傳統標量獎勵模型，使用生成式獎勵模型（GRM）。演員模型本身充當評判者，RL在生成的同時優化評估行為。這意義重大，因為許多有價值任務不易用精確匹配評分：寫作、設計、工具使用、研究綜合、主觀質量和長期代理行為。這些情況下，評估更像是深思熟慮而非標量預測。自評判模型可能有盲點或獎勵黑客風險，但方向重要：獎勵正從單獨訓練的標量獎勵模型轉向通過RL優化的模型生成評估行為。

5. 先專家後同策略蒸餾

DeepSeek不是用一個混合RL階段訓練最終模型。它首先訓練領域專家：每個領域從高質量領域數據的監督微調開始，然後使用領域特定提示和獎勵信號運行GRPO。這些專家然後通過同策略蒸餾（OPD）合併。學生採樣自己的軌跡，超過十個教師模型在這些軌跡上提供目標分佈。這避免了直接合並權重或希望單一複合獎勵能同時產生所有行為。昂貴部分是全詞彙logit蒸餾：不是僅匹配採樣token，而是匹配完整教師分佈。為使其可行，他們緩存教師最後層隱藏狀態，並實時用相關教師頭重構logits。

6. 代理訓練將運行時拉入循環

DeepSeek-V4還改變了工具使用對話中推理狀態的處理方式。對於代理工作流，它保留用户/工具邊界間的推理痕跡，而不是在每個用户消息後刷新。對於普通聊天，仍然丟棄先前推理以保持上下文簡潔。他們還引入快速指令：附加到主上下文的特殊token，用於輔助決策如搜索/非搜索、查詢生成、領域分類和URL讀取。無需調用單獨控制器模型並支付冗餘預填充，這些決策重用主模型的KV緩存。最後，代理訓練需要沙盒。DeepSeek描述了一個可搶佔的滾動服務，帶有token粒度預寫日誌，以及用於沙盒執行的DeepSeek彈性計算。

總體來看，DeepSeek-V4這六點的主線相同：重要訓練決策現在延伸到運行時、評估和基礎設施。架構與服務協同設計，路由成為帶有側信道狀態的穩定性問題，推理努力、獎勵、蒸餾和工具使用都變成可編程循環，涉及滾動、評判者、檢查點和執行日誌。這正是Fireworks訓練API背後的賭注：暴露循環，處理底層系統。全詞彙OPD、歷史路由器緩存和DSec式沙盒滾動服務需要比大多數平台今天提供的更多原語，但方向無可爭辯：固定訓練管線正讓位於可編程訓練系統。