2026-05-15 12:50 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

DeepSeekモデル完全ガイド：V3、R1、V3.1とその先へ

この記事では、DeepSeek V3、R1、V3.1などのモデルを徹底解説。それぞれの特徴、性能、最適なユースケースを比較し、安全なデプロイ方法も紹介します。

ソースBentoML Blog

記事インテリジェンス

エンジニア上級

要点

DeepSeek-V3はMoEアーキテクチャの汎用モデルで、トレーニングコストは560万ドルと低コスト。
DeepSeek-R1は推論特化モデルで、ステップバイステップの思考連鎖を生成し、OpenAI o1に匹敵。
DeepSeek-V3.1はハイブリッドモデルで、高速応答と深い推論を切り替え可能。
蒸留モデルはリソース制限のある環境向けだが、性能は低下する。

重要な理由

このニュースが重要なのは、DeepSeek-V3はMoEアーキテクチャの汎用モデルで、トレーニングコストは560万ドルと低コストためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

DeepSeekは、AI分野で主要なプレーヤーとして浮上し、671Bパラメータの大規模モデル（V3.1やR1など）と蒸留バージョンで注目を集めています。モデルファミリーの拡大に伴い、各バージョンの違いを理解することが重要です。本ガイドでは、DeepSeek-V3、R1、V3.1の主要モデルを詳しく解説し、ニーズに合ったモデル選択を支援します。

DeepSeek-V3：効率的な汎用モデル 2024年12月にリリースされたV3は、混合専門家（MoE）アーキテクチャを採用し、総パラメータ671B、各トークンで37Bが活性化されます。トレーニングには278.8万H800 GPU時間を要し、コストは約560万ドルと、GPT-4の5〜10億ドルを大幅に下回ります。V3にはBase（事前学習済み）とChat（対話向けにRLHFチューニング）の2バージョンがあり、ChatはGPT-4oやLlama 3.1 405Bに匹敵する性能を発揮します。

DeepSeek-R1：推論エキスパート V3-Baseを基に、R1は大規模強化学習で訓練され、複雑な推論に特化しています。V3が直接回答を生成するのに対し、R1は思考連鎖（CoT）を通じて段階的に結果を導き出します。数学、プログラミング、科学推論、マルチステップ計画に適し、性能はOpenAI o1に匹敵します。R1-Zeroは純粋なRLバージョンですが、繰り返しや可読性の問題があったため、R1ではコールドスタートデータと多段階訓練で改善されました。使用時には、システムプロンプトを避け、ユーザープロンプトにすべての指示を含めることが推奨されます。

DeepSeek-V3.1：ハイブリッドの新星 2025年8月にリリースされたV3.1は、V3とR1の利点を統合したメジャーアップデートです。V3.1-Baseを基に、より長いコンテキスト（128K）で訓練され、「思考」モードと「非思考」モードをチャットテンプレートの変更で切り替えられます。V3.1はツール呼び出しとエージェントワークフローで最も強力で、R1-0528より20〜50%少ないトークンで同等の推論品質を実現します。MITライセンスで提供され、高速応答と深い推論の両方が必要なチームに最適です。

その他のバリエーションとデプロイ さらに、V3-0324（推論とコーディングが改善され、GPT-4.5を凌駕）やR1-0528（推論強化、幻覚45-50%低減、関数呼び出し対応）もリリースされています。すべてのモデルはオープンソースで、セルフホスティングが可能です。リソース制約のある環境向けに蒸留バージョンも提供されていますが、性能は低下します。汎用タスクにはV3シリーズ、複雑な推論にはR1シリーズ、その両方を兼ねるにはV3.1が適しています。