AI News HubLIVE
站内改写

DeepSeek-V2.5:汎用機能とコーディング能力を融合した新しいオープンソースモデル

DeepSeekはDeepSeek-V2.5を正式リリース。DeepSeek-V2-0628の汎用対話能力とDeepSeek-Coder-V2-0724の強力なコード処理を統合し、ライティングや指示追従タスクで大幅に改善。安全性も向上し、Web・API・オープンソースで利用可能。

記事インテリジェンス

エンジニア上級

要点

  • DeepSeek-V2.5は汎用モデルとコードモデルを統合し、シームレスな体験を提供。
  • 多くのベンチマークで前世代を上回り、特に中国語のコンテンツ作成とQ&Aで顕著。
  • 安全性スコアが82.6%に向上し、スピルオーバー率は4.6%に低下。
  • コード能力を維持し、FIM補完で5.1%改善、HumanEvalやLiveCodeBenchでより良い結果。

重要な理由

このニュースが重要なのは、DeepSeek-V2.5は汎用モデルとコードモデルを統合し、シームレスな体験を提供ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

DeepSeekは2024年9月5日、DeepSeek-V2.5を正式に発表しました。このモデルはDeepSeek-V2-0628の汎用対話能力とDeepSeek-Coder-V2-0724の強力なコード処理能力を融合したもので、人間の嗜好への適合性が向上しています。また、ライティングや指示追従タスクにおいて顕著な改善が見られ、ウェブおよびAPIを通じて利用可能です。APIエンドポイントは後方互換性があり、deepseek-coderまたはdeepseek-chatでアクセスできます。

汎用能力の評価では、DeepSeek-V2.5はほとんどの業界標準テストセットで前世代を上回りました。内部の中国語評価では、DeepSeek-V2-0628と比較してGPT-4o miniおよびChatGPT-4o-latestに対する勝率が大幅に向上し、特にコンテンツ作成とQ&Aタスクでユーザーエクスペリエンスが向上しています。

安全性に関しては、DeepSeek-V2.5はジェイルブレイク攻撃への耐性を強化しつつ、通常のクエリへの安全ポリシーの過剰適用を低減しました。内部テストでは、全体的な安全スコアがDeepSeek-V2-0628の74.4%から82.6%に上昇し、安全スピルオーバー率は11.3%から4.6%に低下しました。

コード領域では、DeepSeek-V2.5はDeepSeek-Coder-V2-0724の強力なコード能力を維持し、HumanEval PythonおよびLiveCodeBench(2024年1月~9月)で顕著な改善を示しました。FIM補完タスクでは内部評価で5.1%の改善が見られ、プラグイン補完エクスペリエンスが向上しています。

DeepSeek-V2.5は現在HuggingFaceでオープンソースとして公開されており、研究者や開発者が自由に利用できます。