2025-12-03 21:03 UTC+9サイト内リライト4 分で読了更新: 2026-06-27 09:25 UTC+9

DeepSeek V3からV3.2へ：アーキテクチャ、スパースアテンション、強化学習の更新

本稿では、DeepSeek V3.2の技術的進化について、アーキテクチャの変更（スパースアテンション機構DSAを含む）、強化学習の更新（GRPOの改良、自己検証と自己洗練）、およびハイブリッド推論モデルの開発を詳しく解説します。V3.2はGPT-5やGemini 3.0 Proに匹敵する性能を持ち、オープンウェイトモデルとして公開された重要なリリースです。

ソースAhead of AI (Sebastian Raschka)著者: Sebastian Raschka, PhD

記事インテリジェンス

エンジニア上級

要点

DeepSeek V3.2はV3.2-Expと同じスパースアテンション機構（DSA）を採用し、長文コンテキスト効率を大幅に向上。
DeepSeekMath V2の自己検証・自己洗練技術を統合し、数学的推論能力を大幅に強化。
強化学習フレームワークにGRPOの改良（ドメイン別KL強度、不偏KL推定、オフポリシー系列マスキングなど）を導入。
DeepSeek V3.2-Specialeは拡張思考により高精度を達成するが、トークン生成量が増加。

重要な理由

このニュースが重要なのは、DeepSeek V3.2はV3.2-Expと同じスパースアテンション機構（DSA）を採用し、長文コンテキスト効率を大幅に向上ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

2025年12月、DeepSeekチームは米国の感謝祭週末に、GPT-5やGemini 3.0 Proに匹敵する性能を持つフラッグシップオープンウェイトモデル「DeepSeek V3.2」をリリースしました。本記事では、DeepSeek V3からV3.2に至る主要な技術的進化を、アーキテクチャ、強化学習、ハイブリッド推論戦略、残差経路の最適化など多岐にわたって解説します。

DeepSeekモデルリリースのタイムライン

DeepSeek V3は2024年12月にリリースされた当初はあまり注目されませんでしたが、同一アーキテクチャを基盤とするDeepSeek R1推論モデルが急速に人気を博し、OpenAI、Google、xAI、Anthropicなどの専有モデルに代わる有力なオープンウェイトモデルとして認知されました。R1以降、約10〜11ヶ月の間隔があり、その間にV3.1やV3.2-Expなどのマイナーアップデートがリリースされました。注目すべき点として、チームはNVIDIAからHuaweiチップへの移行を試みた後、最終的にNVIDIAに戻ったことが挙げられます。V3.2-Expのリリースは、その後のV3.2正式版に向けたエコシステムと推論インフラの準備を目的としたものでした。

ハイブリッド推論と専用推論モデルの比較

DeepSeek V3はベースモデルとしてリリースされ、R1は後訓練により専用推論モデルへと進化しました。一方、V3.1およびV3.2はハイブリッドモデルとなり、ユーザーはチャットテンプレートを介して推論モードと汎用モードを切り替えられます。この動きは、他のチームの動向と対照的です。例えばQwen3は最初ハイブリッドでしたが、後に別々のインストラクトモデルと推論モデルに分割されました。OpenAIのgpt-ossはハイブリッド変種のみを提供しています。DeepSeekの路線は、彼らが引き続き専用R2モデルの開発を進めており、V3シリーズは汎用モデルとして最適化されていることを示唆しています。

DeepSeek V3からV3.1：MLAとRLVR

DeepSeek V3のコアアーキテクチャは混合専門家（MoE）とマルチヘッド潜在アテンション（MLA）です。MLAはキーとバリューのテンソルを低次元空間に圧縮してKVキャッシュに格納することで、メモリ使用量を大幅に削減します。DeepSeek R1は検証可能報酬を用いた強化学習（RLVR）とGRPOアルゴリズムを採用しました。R1-0528バージョンでは後訓練パイプラインの最適化により性能が向上しましたが、詳細は非公開です。V3.1は初めてハイブリッド推論を導入し、単一モデルでモード切り替えを可能にしました。

DeepSeek V3.2-Expとスパースアテンション

2025年9月にリリースされたDeepSeek V3.2-Expはベンチマークで際立った成績を残せませんでしたが、その革新はDeepSeekスパースアテンション（DSA）機構にあります。DSAはLightningインデクサーとトークンセレクターで構成されます。インデクサーはMLAの圧縮表現を用いて各クエリトークンと過去のトークンとの関連性スコアを計算し、トークンセレクターは最高スコアの少数のトークン（例：top-2048）のみを保持してスパースアテンションマスクを生成します。これにより、アテンションの計算複雑性が二次O(L²)から線形O(Lk)に削減され（kは選択されたトークン数）、長文コンテキストで特に効率的です。

DeepSeekMath V2：自己検証と自己洗練

2025年11月27日（米国感謝祭）、DeepSeekチームはV3.2-Exp-Baseを基にしたDeepSeekMath V2をリリースしました。このモデルは数学推論に特化し、複数の数学競技で金メダル級のスコアを達成しました。核となる革新は自己検証と自己洗練です。従来のRLVRの限界として、正しい答えが必ずしも正しい推論を保証せず、また定理証明など多くの数学タスクでは最終的な数値答えではなく厳密な段階的導出が求められます。これに対処するため、DeepSeekは証明生成器（LLM 1）とは別にLLM検証器（LLM 2）を訓練し、さらにメタ検証器（LLM 3）を導入して検証器の品質を向上させました。メタ検証器により、検証器の証明分析の品質スコアが0.85から0.96に改善されました。推論時には生成器と検証器は統合され、最大8回の自己洗練反復を経て解答を洗練します。精度はまだ飽和しておらず、さらなる反復で向上する可能性があります。

DeepSeek V3.2：アーキテクチャと訓練の改善

DeepSeek V3.2のアーキテクチャはV3.2-Expと完全に同一（MLA＋DSA）ですが、訓練方法に顕著な改善があります。報酬設計が変更され、推論・エージェントタスクにはルールベースの結果報酬、長さペナルティ、言語一貫性報酬を採用し、汎用タスクには生成報酬モデル（LLM-as-a-judge）を使用します。数学領域ではDeepSeekMath V2のデータセットと報酬手法を統合しています。

GRPOアルゴリズム自体にも改良が加えられました。KLペナルティは保持しつつドメイン別の調整可能なハイパーパラメータとし（数学では非常に弱いまたはゼロが最適）、不偏KL推定を導入。オフポリシー系列マスキングにより、負のアドバンテージでかつ古すぎるデータを学習から除外。MoEルーティングパターンとサンプリングマスクを維持し、本来のGRPOアドバンテージ正規化を保持（Dr. GRPOのような過激な変更は避けつつ、論理的な調整を施しています）。

さらに、拡張思考変種であるDeepSeek V3.2-Specialeが提供されます。これは推論データのみで強化学習を行い、長さペナルティを低減することでより長い応答を生成し、精度向上と引き換えに計算コストが増加します。

その他の進展：mHC（多様体制約ハイパーコネクション）

2025年12月31日、DeepSeekチームは残差経路を改善するmHC（多様体制約ハイパーコネクション）を提案しました。これはハイパーコネクション（HC）を基に、残差混合をノルム保存多様体上に制約することで訓練安定性を向上させる手法です。若干のオーバーヘッドはあるものの、収束性と訓練安定性が大幅に改善されます。

まとめ

DeepSeek V3.2の主な革新点は、スパースアテンションによる効率向上、自己検証・自己洗練による数学推論の強化、GRPO訓練パイプラインの安定性改善です。市場での位置づけを問わず、DeepSeekのリリースは常に詳細な技術レポートを伴い、オープンソースコミュニティに貴重な学びの機会を提供しています。