AI News HubLIVE
站內改寫3 分鐘閱讀

DeepSeek-V4訓練系統筆記

DeepSeek-V4的訓練系統展示了架構、路由、獎勵建模、推理模式、蒸餾和代理執行如何融入訓練循環。關鍵要點包括:混合注意力機制(CSA和HCA)、基於舊路由器的預取路由穩定方案、通過不同RL配置訓練三種推理模式、用生成式獎勵模型替代標量獎勵、先訓練領域專家再通過全詞彙logit蒸餾合併、以及將運行時整合進訓練循環的代理訓練基礎設施。這些趨勢表明固定訓練配方正在讓位於可編程訓練系統。

DeepSeek-V4的訓練系統之所以引人注目,並非因為單一的基準數字,而是其圍繞系統的整體形態。論文展示了架構、路由、獎勵建模、推理模式、蒸餾和代理執行如何全部成為訓練循環的一部分。

對訓練基礎設施而言,明確的結論是:固定配方已不足以應對需求。研究人員越來越需要可編程循環,而平台負責底層分佈式執行、推理集成、檢查點和擴展。支持這種靈活性正是Fireworks訓練API的核心設計原則。

1. 長上下文成為記憶層次

DeepSeek-V4交替使用壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)。CSA壓縮KV條目後進行稀疏top-k選擇,HCA壓縮更激進,但保留對壓縮記憶的密集註意力。關鍵不僅是“更長上下文”,更是模型與運行時的協同設計:注意力模式、KV佈局、精度、稀疏選擇和推理內核必須對齊。訓練面臨同樣問題:如果服務使用定製內核和壓縮緩存,訓練期間的評估需要足夠接近服務,以避免針對錯誤的系統進行優化。訓練平台設計提示:訓練形狀、檢查點推進和權重同步到部署變得至關重要。架構特定工作不僅是損失函數;平台必須啓動正確的訓練器、保存可用檢查點,並評估最終為用户服務的模型/運行時組合。

2. MoE路由是一個穩定性問題

最有趣的預訓練技巧是預期路由。DeepSeek報告損失尖峯與MoE異常值和路由有關。他們的修復方法是將特徵與路由解耦:在步驟t,使用當前權重計算特徵,但路由索引來自較舊的權重θ_{t-δ}。為避免運行兩次模型,他們預取未來批次,用較舊路由器提前計算路由決策,緩存這些路由,稍後重用。他們報告在此模式激活時約20%的開銷,僅在尖峯檢測器觸發回滾時才開啓。這是一種條件性運行時干預:檢測不穩定、回滾、改變路由行為、緩存側信道數據,然後恢復正常訓練。

3. 推理努力是訓練行為

DeepSeek-V4從相同權重暴露三種模式:非思考、高思考、最大思考。這些模式使用不同的RL配置、長度懲罰、上下文窗口和回覆格式進行訓練。最大思考還獲得明確系統指令,推動詳盡推理。這使得“推理努力”不再神秘,它不僅是運行時標誌,而是由數據、獎勵設計、格式化和評估支持的行為契約。

4. 獎勵建模變得生成式

對於難以驗證的任務,DeepSeek表示放棄傳統標量獎勵模型,使用生成式獎勵模型(GRM)。演員模型本身充當評判者,RL在生成的同時優化評估行為。這意義重大,因為許多有價值任務不易用精確匹配評分:寫作、設計、工具使用、研究綜合、主觀質量和長期代理行為。這些情況下,評估更像是深思熟慮而非標量預測。自評判模型可能有盲點或獎勵黑客風險,但方向重要:獎勵正從單獨訓練的標量獎勵模型轉向通過RL優化的模型生成評估行為。

5. 先專家後同策略蒸餾

DeepSeek不是用一個混合RL階段訓練最終模型。它首先訓練領域專家:每個領域從高質量領域數據的監督微調開始,然後使用領域特定提示和獎勵信號運行GRPO。這些專家然後通過同策略蒸餾(OPD)合併。學生採樣自己的軌跡,超過十個教師模型在這些軌跡上提供目標分佈。這避免了直接合並權重或希望單一複合獎勵能同時產生所有行為。昂貴部分是全詞彙logit蒸餾:不是僅匹配採樣token,而是匹配完整教師分佈。為使其可行,他們緩存教師最後層隱藏狀態,並實時用相關教師頭重構logits。

6. 代理訓練將運行時拉入循環

DeepSeek-V4還改變了工具使用對話中推理狀態的處理方式。對於代理工作流,它保留用户/工具邊界間的推理痕跡,而不是在每個用户消息後刷新。對於普通聊天,仍然丟棄先前推理以保持上下文簡潔。他們還引入快速指令:附加到主上下文的特殊token,用於輔助決策如搜索/非搜索、查詢生成、領域分類和URL讀取。無需調用單獨控制器模型並支付冗餘預填充,這些決策重用主模型的KV緩存。最後,代理訓練需要沙盒。DeepSeek描述了一個可搶佔的滾動服務,帶有token粒度預寫日誌,以及用於沙盒執行的DeepSeek彈性計算。

總體來看,DeepSeek-V4這六點的主線相同:重要訓練決策現在延伸到運行時、評估和基礎設施。架構與服務協同設計,路由成為帶有側信道狀態的穩定性問題,推理努力、獎勵、蒸餾和工具使用都變成可編程循環,涉及滾動、評判者、檢查點和執行日誌。這正是Fireworks訓練API背後的賭注:暴露循環,處理底層系統。全詞彙OPD、歷史路由器緩存和DSec式沙盒滾動服務需要比大多數平台今天提供的更多原語,但方向無可爭辯:固定訓練管線正讓位於可編程訓練系統。