DeepSeek V4 ProとFlashをClaude Opus 4.7およびKimi K2.6と比較テスト
DeepSeek V4 ProとFlashを、Claude Opus 4.7やKimi K2.6と同じFlowGraphベンチマークで評価しました。Proは77/100(コスト$2.25)でOpus(91)とKimi(68)の中間、Flashは60/100(コスト$0.02)で史上最安値ですが、ビルドに失敗し重要な出力が欠けていました。両モデルにリース期限切れのバグがありましたが、Flashはツール呼び出しの信頼性で期待以上でした。全体的にOpusが依然最強ですが、DeepSeekの価格設定はコスト状況を大きく変えました。
記事インテリジェンス
要点
- DeepSeek V4 Proは77/100($2.25)で、Kimi K2.6(68)を上回り、Claude Opus 4.7(91)に次ぐ。
- DeepSeek V4 Flashは60/100($0.02)で過去最低コストだが、ビルドとルーティングに重大な問題。
- ProとFlashの両方にリース期限切れ完了の脆弱性。
- Claude Opus 4.7が依然最強で、再現可能なバグは1つだけ。
重要な理由
このニュースが重要なのは、DeepSeek V4 Proは77/100($2.25)で、Kimi K2.6(68)を上回り、Claude Opus 4.7(91)に次ぐためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
DeepSeekは2026年4月24日、MITライセンスの下でV4 ProとV4 Flashをリリースしました。これはV3以来の新アーキテクチャであり、初の2層(Proが旗艦、Flashが軽量モデル)のオープンウェイトラインアップです。私たちは、以前Claude Opus 4.7とKimi K2.6の比較に使用したものと同じFlowGraph仕様で両モデルを評価しました。同じ仕様、同じプロンプト、同じ評価基準です。
DeepSeek V4 Proは77/100のスコアでコスト$2.25、Opus 4.7(91)とKimi K2.6(68)の中間に位置しました。DeepSeek V4 Flashは60/100でコスト$0.02と、このテストでは過去にない低価格でしたが、ビルドに失敗し、重要な出力が欠けていました。
テストでは、20のエンドポイント、永続状態、リース管理、リトライ、イベントストリーミングを備えたワークフローオーケストレーションバックエンドを使用しました。DeepSeek V4 Proは独自のテストスイートに合格しましたが、TypeScriptのビルドは失敗しました。DeepSeek V4 Flashのテストスイートは、セットアップスクリプトがデータベースの強制リセットを試みてエラーとなったため、最初のテストも実行されませんでした。
DeepSeek V4 Proはシステムの大まかな構造は正しく、エンドポイントは配線され、テストスイートは合格し、プロジェクトレイアウトは妥当でした。問題は、Kimi K2.6と同じ領域、つまりリース期限切れ処理、スケジューリング、検証、ビルドの整合性に集中していました。例えば、ワーカーのリースが期限切れになった後でもステップを完了できてしまうバグや、ワークフローが並列上限に達した際に他のワークフローの候補をブロックしてしまう問題がありました。また、プロジェクトはビルドできず、TypeScript設定がコンパイル出力を生成しない一方で、package.jsonはその出力を実行することを期待していました。
DeepSeek V4 Flashにも同じリース期限切れ完了バグがあり、有効なリクエストペイロード(JSONオブジェクトのみを受け付け、配列を拒否)を拒否し、APIエンドポイントが誤ったルートプレフィックスにマウントされていました。さらに、ワークフローが失敗した後も、後続のステップが「待機中リトライ」状態になり、ワーカーにピックアップされる可能性がありました。ただし、ツール呼び出しの信頼性は予想以上に良好で、モデルはファイルの読み取り、依存関係のインストール、テストスイートの実行を適切に行い、壊れたコマンドでリトライループに陥ることはありませんでした。
コスト比較では、DeepSeek V4 FlashのポイントあたりのコストはKimi K2.6の約1/30、Opus 4.7の約1/100でした。スコアは低いものの、$0.02という超低コストは、複数回の試行を必要とするタスクで威力を発揮します。DeepSeek V4 Proは公式割引(2026年5月31日まで75%オフ)を適用すると、コストが約$0.55まで下がり、Kimi K2.6よりも低コストで9ポイント高いスコアを達成します。
全体的に、Claude Opus 4.7は依然としてリードしており、再現可能なバグは1つだけでした。DeepSeek V4 ProはKimi K2.6より優れていますが、ギャップはまだ存在します。DeepSeek V4 Flashは新しい価格カテゴリーを開拓し、完全に信頼できるわけではありませんが、$0.02での初回試行は計算式を変えるものです。