AI News HubLIVE
站內改寫3 分鐘閱讀

從DeepSeek V3到V3.2:架構、稀疏注意力與強化學習更新

本文深入解讀DeepSeek V3.2的技術演進,涵蓋從V3到V3.2的架構變化(包括稀疏注意力機制DSA)、強化學習更新(如GRPO改進、自我驗證與自我精煉)以及混合推理模型的發展。V3.2在效能上媲美GPT-5和Gemini 3.0 Pro,並採用開源權重發布,重要性不言而喻。

來源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

2025年12月,DeepSeek團隊在感恩節週末前後釋出了其旗艦開源權重模型DeepSeek V3.2,效能可與GPT-5和Gemini 3.0 Pro等頂級專有模型媲美。本文詳細梳理了從DeepSeek V3到V3.2的關鍵技術演進,包括架構創新、強化學習改進、混合推理策略以及殘差路徑最佳化等多方面內容。

DeepSeek模型釋出時間線

DeepSeek V3於2024年12月釋出,最初並未引起廣泛關注。但基於相同架構的DeepSeek R1推理模型使其迅速成為最受歡迎的開源權重模型之一,成為OpenAI、Google、xAI和Anthropic等專有模型的合法替代品。自R1之後,DeepSeek團隊經歷了約10-11個月的沉寂,期間有小版本更新如V3.1和V3.2-Exp。值得注意的是,團隊曾嘗試從NVIDIA晶片切換到華為晶片,但最終又迴歸NVIDIA。V3.2-Exp的釋出被視為為後續V3.2正式版鋪平道路,尤其實驗性的稀疏注意力機制需要自定義程式碼支援。

混合推理與專用推理模型之爭

DeepSeek V3最初只是一個基座模型,R1透過後訓練演變為專用推理模型。而V3.1和V3.2則轉向混合模型,使用者可透過聊天模板在推理和通用模式間切換。這一趨勢與其他團隊形成對比:Qwen3最初也是混合模型,但後來拆分為獨立的指令和推理模型以提升各自效能。OpenAI的gpt-oss則僅提供混合變體。DeepSeek的路線可能表明他們仍在開發專用R2推理模型,而V3系列旨在打造全能型模型。

從DeepSeek V3到V3.1:MLA與RLVR

DeepSeek V3的核心架構包括混合專家(MoE)和多頭潛在注意力(MLA)。MLA透過將鍵值張量壓縮到低維空間再儲存到KV快取,顯著降低記憶體佔用。DeepSeek R1則採用基於可驗證獎勵的強化學習(RLVR)方法,使用GRPO(組相對策略最佳化)演算法進行訓練。R1-0528版本透過最佳化後訓練管道提升了效能,但具體細節未披露。V3.1首次引入混合推理能力,使使用者可以在一個模型中切換模式。

DeepSeek V3.2-Exp與稀疏注意力

2025年9月釋出的DeepSeek V3.2-Exp儘管基準測試成績不突出,但其關鍵創新是DeepSeek稀疏注意力(DSA)機制。DSA包含閃電索引器和令牌選擇器:索引器使用MLA的壓縮表示計算每個查詢令牌與歷史令牌的相關性分數,令牌選擇器則保留最高分的少量令牌(例如top-2048),構建稀疏注意力掩碼。這使得注意力複雜度從二次方O(L²)降至線性O(Lk),其中k遠小於序列長度L。該機制在長上下文場景下尤其高效。

DeepSeekMath V2:自我驗證與自我精煉

2025年11月27日(美國感恩節),DeepSeek團隊釋出了基於V3.2-Exp-Base的DeepSeekMath V2,專為數學推理設計,在多項數學競賽中獲得金牌級成績。該模型的核心創新在於自我驗證和自我精煉。傳統RLVR的侷限在於正確答案不一定保證正確推理,且許多數學任務(如定理證明)需要嚴格的逐步推導而非數值答案。為此,DeepSeek訓練了一個LLM驗證器(LLM 2)來評估證明生成器(LLM 1)的輸出,並引入元驗證器(LLM 3)防止驗證器產生幻覺。元驗證器將驗證器的分析質量從0.85提升至0.96。在推理時,生成器與驗證器合併為單一模型,透過最多8次迭代的自我精煉逐步最佳化答案,且精度尚未飽和。

DeepSeek V3.2:架構與訓練改進

DeepSeek V3.2採用了與V3.2-Exp完全相同的架構,即MLA與DSA的結合。訓練方面的改進則更為顯著。首先,獎勵設定進行了調整:對推理和智慧體任務採用基於規則的結果獎勵、長度懲罰和語言一致性獎勵,對通用任務則採用生成式獎勵模型(即LLM作為評判者)。數學領域直接整合了DeepSeekMath V2的資料集和獎勵方法。

GRPO演算法本身也經歷了多項改進:DeepSeek V3.2保留了KL懲罰,但將其作為可調超引數(數學領域可設為極低甚至零);引入無偏KL估計,透過重新加權修正梯度偏差;採用離策略序列掩碼,丟棄負優勢且過於偏離策略的資料;保持MoE路由模式和取樣掩碼;但保留原始GRPO的優勢歸一化(區別於Dr. GRPO的激進修改)。此外,DeepSeek V3.2還推出了擴充套件思考變體V3.2-Speciale,該變體僅使用推理資料訓練,並降低長度懲罰以生成更長響應,以更高計算成本換取更高精度。

其他進展:mHC(流形約束超連線)

2025年12月31日,DeepSeek團隊提出了mHC(流形約束超連線)方法,旨在改進Transformer的殘差路徑。該方法在超連線(HC)基礎上,約束殘差混合位於保持範數的流形上,從而提高訓練穩定性。儘管引入少量開銷,但顯著改善了收斂質量和訓練穩定性。

總結

DeepSeek V3.2的核心創新包括:採用稀疏注意力提升效率、整合自我驗證與自我精煉提升數學推理、以及GRPO訓練管道的多項穩定性改進。無論市場地位如何,DeepSeek每次釋出都伴隨著詳實的技術報告,為開源社群提供了寶貴的學習資源。