從DeepSeek V3到V3.2:架構、稀疏注意力與強化學習更新
本文深入解讀DeepSeek V3.2的技術演進,涵蓋從V3到V3.2的架構變化(包括稀疏注意力機制DSA)、強化學習更新(如GRPO改進、自我驗證與自我精煉)以及混合推理模型的發展。V3.2在性能上媲美GPT-5和Gemini 3.0 Pro,並採用開源權重發布,重要性不言而喻。
2025年12月,DeepSeek團隊在感恩節週末前後發佈了其旗艦開源權重模型DeepSeek V3.2,性能可與GPT-5和Gemini 3.0 Pro等頂級專有模型媲美。本文詳細梳理了從DeepSeek V3到V3.2的關鍵技術演進,包括架構創新、強化學習改進、混合推理策略以及殘差路徑優化等多方面內容。
DeepSeek模型發佈時間線
DeepSeek V3於2024年12月發佈,最初並未引起廣泛關注。但基於相同架構的DeepSeek R1推理模型使其迅速成為最受歡迎的開源權重模型之一,成為OpenAI、Google、xAI和Anthropic等專有模型的合法替代品。自R1之後,DeepSeek團隊經歷了約10-11個月的沉寂,期間有小版本更新如V3.1和V3.2-Exp。值得注意的是,團隊曾嘗試從NVIDIA芯片切換到華為芯片,但最終又迴歸NVIDIA。V3.2-Exp的發佈被視為為後續V3.2正式版鋪平道路,尤其實驗性的稀疏注意力機制需要自定義代碼支持。
混合推理與專用推理模型之爭
DeepSeek V3最初只是一個基座模型,R1通過後訓練演變為專用推理模型。而V3.1和V3.2則轉向混合模型,用户可通過聊天模板在推理和通用模式間切換。這一趨勢與其他團隊形成對比:Qwen3最初也是混合模型,但後來拆分為獨立的指令和推理模型以提升各自性能。OpenAI的gpt-oss則僅提供混合變體。DeepSeek的路線可能表明他們仍在開發專用R2推理模型,而V3系列旨在打造全能型模型。
從DeepSeek V3到V3.1:MLA與RLVR
DeepSeek V3的核心架構包括混合專家(MoE)和多頭潛在注意力(MLA)。MLA通過將鍵值張量壓縮到低維空間再存儲到KV緩存,顯著降低內存佔用。DeepSeek R1則採用基於可驗證獎勵的強化學習(RLVR)方法,使用GRPO(組相對策略優化)算法進行訓練。R1-0528版本通過優化後訓練管道提升了性能,但具體細節未披露。V3.1首次引入混合推理能力,使用户可以在一個模型中切換模式。
DeepSeek V3.2-Exp與稀疏注意力
2025年9月發佈的DeepSeek V3.2-Exp儘管基準測試成績不突出,但其關鍵創新是DeepSeek稀疏注意力(DSA)機制。DSA包含閃電索引器和令牌選擇器:索引器使用MLA的壓縮表示計算每個查詢令牌與歷史令牌的相關性分數,令牌選擇器則保留最高分的少量令牌(例如top-2048),構建稀疏注意力掩碼。這使得注意力複雜度從二次方O(L²)降至線性O(Lk),其中k遠小於序列長度L。該機制在長上下文場景下尤其高效。
DeepSeekMath V2:自我驗證與自我精煉
2025年11月27日(美國感恩節),DeepSeek團隊發佈了基於V3.2-Exp-Base的DeepSeekMath V2,專為數學推理設計,在多項數學競賽中獲得金牌級成績。該模型的核心創新在於自我驗證和自我精煉。傳統RLVR的侷限在於正確答案不一定保證正確推理,且許多數學任務(如定理證明)需要嚴格的逐步推導而非數值答案。為此,DeepSeek訓練了一個LLM驗證器(LLM 2)來評估證明生成器(LLM 1)的輸出,並引入元驗證器(LLM 3)防止驗證器產生幻覺。元驗證器將驗證器的分析質量從0.85提升至0.96。在推理時,生成器與驗證器合併為單一模型,通過最多8次迭代的自我精煉逐步優化答案,且精度尚未飽和。
DeepSeek V3.2:架構與訓練改進
DeepSeek V3.2採用了與V3.2-Exp完全相同的架構,即MLA與DSA的結合。訓練方面的改進則更為顯著。首先,獎勵設置進行了調整:對推理和智能體任務採用基於規則的結果獎勵、長度懲罰和語言一致性獎勵,對通用任務則採用生成式獎勵模型(即LLM作為評判者)。數學領域直接整合了DeepSeekMath V2的數據集和獎勵方法。
GRPO算法本身也經歷了多項改進:DeepSeek V3.2保留了KL懲罰,但將其作為可調超參數(數學領域可設為極低甚至零);引入無偏KL估計,通過重新加權修正梯度偏差;採用離策略序列掩碼,丟棄負優勢且過於偏離策略的數據;保持MoE路由模式和採樣掩碼;但保留原始GRPO的優勢歸一化(區別於Dr. GRPO的激進修改)。此外,DeepSeek V3.2還推出了擴展思考變體V3.2-Speciale,該變體僅使用推理數據訓練,並降低長度懲罰以生成更長響應,以更高計算成本換取更高精度。
其他進展:mHC(流形約束超連接)
2025年12月31日,DeepSeek團隊提出了mHC(流形約束超連接)方法,旨在改進Transformer的殘差路徑。該方法在超連接(HC)基礎上,約束殘差混合位於保持範數的流形上,從而提高訓練穩定性。儘管引入少量開銷,但顯著改善了收斂質量和訓練穩定性。
總結
DeepSeek V3.2的核心創新包括:採用稀疏注意力提升效率、整合自我驗證與自我精煉提升數學推理、以及GRPO訓練管道的多項穩定性改進。無論市場地位如何,DeepSeek每次發佈都伴隨着詳實的技術報告,為開源社區提供了寶貴的學習資源。