2025-12-03 20:03 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

從DeepSeek V3到V3.2：架構、稀疏注意力與強化學習更新

本文深入解讀DeepSeek V3.2的技術演進，涵蓋從V3到V3.2的架構變化（包括稀疏注意力機制DSA）、強化學習更新（如GRPO改進、自我驗證與自我精煉）以及混合推理模型的發展。V3.2在效能上媲美GPT-5和Gemini 3.0 Pro，並採用開源權重發布，重要性不言而喻。

來源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

2025年12月，DeepSeek團隊在感恩節週末前後釋出了其旗艦開源權重模型DeepSeek V3.2，效能可與GPT-5和Gemini 3.0 Pro等頂級專有模型媲美。本文詳細梳理了從DeepSeek V3到V3.2的關鍵技術演進，包括架構創新、強化學習改進、混合推理策略以及殘差路徑最佳化等多方面內容。

DeepSeek模型釋出時間線

DeepSeek V3於2024年12月釋出，最初並未引起廣泛關注。但基於相同架構的DeepSeek R1推理模型使其迅速成為最受歡迎的開源權重模型之一，成為OpenAI、Google、xAI和Anthropic等專有模型的合法替代品。自R1之後，DeepSeek團隊經歷了約10-11個月的沉寂，期間有小版本更新如V3.1和V3.2-Exp。值得注意的是，團隊曾嘗試從NVIDIA晶片切換到華為晶片，但最終又迴歸NVIDIA。V3.2-Exp的釋出被視為為後續V3.2正式版鋪平道路，尤其實驗性的稀疏注意力機制需要自定義程式碼支援。

混合推理與專用推理模型之爭

DeepSeek V3最初只是一個基座模型，R1透過後訓練演變為專用推理模型。而V3.1和V3.2則轉向混合模型，使用者可透過聊天模板在推理和通用模式間切換。這一趨勢與其他團隊形成對比：Qwen3最初也是混合模型，但後來拆分為獨立的指令和推理模型以提升各自效能。OpenAI的gpt-oss則僅提供混合變體。DeepSeek的路線可能表明他們仍在開發專用R2推理模型，而V3系列旨在打造全能型模型。

從DeepSeek V3到V3.1：MLA與RLVR

DeepSeek V3的核心架構包括混合專家（MoE）和多頭潛在注意力（MLA）。MLA透過將鍵值張量壓縮到低維空間再儲存到KV快取，顯著降低記憶體佔用。DeepSeek R1則採用基於可驗證獎勵的強化學習（RLVR）方法，使用GRPO（組相對策略最佳化）演算法進行訓練。R1-0528版本透過最佳化後訓練管道提升了效能，但具體細節未披露。V3.1首次引入混合推理能力，使使用者可以在一個模型中切換模式。

DeepSeek V3.2-Exp與稀疏注意力

2025年9月釋出的DeepSeek V3.2-Exp儘管基準測試成績不突出，但其關鍵創新是DeepSeek稀疏注意力（DSA）機制。DSA包含閃電索引器和令牌選擇器：索引器使用MLA的壓縮表示計算每個查詢令牌與歷史令牌的相關性分數，令牌選擇器則保留最高分的少量令牌（例如top-2048），構建稀疏注意力掩碼。這使得注意力複雜度從二次方O(L²)降至線性O(Lk)，其中k遠小於序列長度L。該機制在長上下文場景下尤其高效。

DeepSeekMath V2：自我驗證與自我精煉

2025年11月27日（美國感恩節），DeepSeek團隊釋出了基於V3.2-Exp-Base的DeepSeekMath V2，專為數學推理設計，在多項數學競賽中獲得金牌級成績。該模型的核心創新在於自我驗證和自我精煉。傳統RLVR的侷限在於正確答案不一定保證正確推理，且許多數學任務（如定理證明）需要嚴格的逐步推導而非數值答案。為此，DeepSeek訓練了一個LLM驗證器（LLM 2）來評估證明生成器（LLM 1）的輸出，並引入元驗證器（LLM 3）防止驗證器產生幻覺。元驗證器將驗證器的分析質量從0.85提升至0.96。在推理時，生成器與驗證器合併為單一模型，透過最多8次迭代的自我精煉逐步最佳化答案，且精度尚未飽和。

DeepSeek V3.2：架構與訓練改進

DeepSeek V3.2採用了與V3.2-Exp完全相同的架構，即MLA與DSA的結合。訓練方面的改進則更為顯著。首先，獎勵設定進行了調整：對推理和智慧體任務採用基於規則的結果獎勵、長度懲罰和語言一致性獎勵，對通用任務則採用生成式獎勵模型（即LLM作為評判者）。數學領域直接整合了DeepSeekMath V2的資料集和獎勵方法。

GRPO演算法本身也經歷了多項改進：DeepSeek V3.2保留了KL懲罰，但將其作為可調超引數（數學領域可設為極低甚至零）；引入無偏KL估計，透過重新加權修正梯度偏差；採用離策略序列掩碼，丟棄負優勢且過於偏離策略的資料；保持MoE路由模式和取樣掩碼；但保留原始GRPO的優勢歸一化（區別於Dr. GRPO的激進修改）。此外，DeepSeek V3.2還推出了擴充套件思考變體V3.2-Speciale，該變體僅使用推理資料訓練，並降低長度懲罰以生成更長響應，以更高計算成本換取更高精度。

其他進展：mHC（流形約束超連線）

2025年12月31日，DeepSeek團隊提出了mHC（流形約束超連線）方法，旨在改進Transformer的殘差路徑。該方法在超連線（HC）基礎上，約束殘差混合位於保持範數的流形上，從而提高訓練穩定性。儘管引入少量開銷，但顯著改善了收斂質量和訓練穩定性。

總結

DeepSeek V3.2的核心創新包括：採用稀疏注意力提升效率、整合自我驗證與自我精煉提升數學推理、以及GRPO訓練管道的多項穩定性改進。無論市場地位如何，DeepSeek每次釋出都伴隨著詳實的技術報告，為開源社群提供了寶貴的學習資源。