DeepSeek-V2.5:汎用機能とコーディング能力を融合した新しいオープンソースモデル
DeepSeekはDeepSeek-V2.5を正式リリース。DeepSeek-V2-0628の汎用対話能力とDeepSeek-Coder-V2-0724の強力なコード処理を統合し、ライティングや指示追従タスクで大幅に改善。安全性も向上し、Web・API・オープンソースで利用可能。
記事インテリジェンス
要点
- DeepSeek-V2.5は汎用モデルとコードモデルを統合し、シームレスな体験を提供。
- 多くのベンチマークで前世代を上回り、特に中国語のコンテンツ作成とQ&Aで顕著。
- 安全性スコアが82.6%に向上し、スピルオーバー率は4.6%に低下。
- コード能力を維持し、FIM補完で5.1%改善、HumanEvalやLiveCodeBenchでより良い結果。
重要な理由
このニュースが重要なのは、DeepSeek-V2.5は汎用モデルとコードモデルを統合し、シームレスな体験を提供ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
DeepSeekは2024年9月5日、DeepSeek-V2.5を正式に発表しました。このモデルはDeepSeek-V2-0628の汎用対話能力とDeepSeek-Coder-V2-0724の強力なコード処理能力を融合したもので、人間の嗜好への適合性が向上しています。また、ライティングや指示追従タスクにおいて顕著な改善が見られ、ウェブおよびAPIを通じて利用可能です。APIエンドポイントは後方互換性があり、deepseek-coderまたはdeepseek-chatでアクセスできます。
汎用能力の評価では、DeepSeek-V2.5はほとんどの業界標準テストセットで前世代を上回りました。内部の中国語評価では、DeepSeek-V2-0628と比較してGPT-4o miniおよびChatGPT-4o-latestに対する勝率が大幅に向上し、特にコンテンツ作成とQ&Aタスクでユーザーエクスペリエンスが向上しています。
安全性に関しては、DeepSeek-V2.5はジェイルブレイク攻撃への耐性を強化しつつ、通常のクエリへの安全ポリシーの過剰適用を低減しました。内部テストでは、全体的な安全スコアがDeepSeek-V2-0628の74.4%から82.6%に上昇し、安全スピルオーバー率は11.3%から4.6%に低下しました。
コード領域では、DeepSeek-V2.5はDeepSeek-Coder-V2-0724の強力なコード能力を維持し、HumanEval PythonおよびLiveCodeBench(2024年1月~9月)で顕著な改善を示しました。FIM補完タスクでは内部評価で5.1%の改善が見られ、プラグイン補完エクスペリエンスが向上しています。
DeepSeek-V2.5は現在HuggingFaceでオープンソースとして公開されており、研究者や開発者が自由に利用できます。