2026-05-15 10:39 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

DeepSeek V4 ProとFlashをClaude Opus 4.7およびKimi K2.6と比較テスト

DeepSeek V4 ProとFlashを、Claude Opus 4.7やKimi K2.6と同じFlowGraphベンチマークで評価しました。Proは77/100（コスト$2.25）でOpus（91）とKimi（68）の中間、Flashは60/100（コスト$0.02）で史上最安値ですが、ビルドに失敗し重要な出力が欠けていました。両モデルにリース期限切れのバグがありましたが、Flashはツール呼び出しの信頼性で期待以上でした。全体的にOpusが依然最強ですが、DeepSeekの価格設定はコスト状況を大きく変えました。

ソースHacker News AI著者: nl

DeepSeekは2026年4月24日、MITライセンスの下でV4 ProとV4 Flashをリリースしました。これはV3以来の新アーキテクチャであり、初の2層（Proが旗艦、Flashが軽量モデル）のオープンウェイトラインアップです。私たちは、以前Claude Opus 4.7とKimi K2.6の比較に使用したものと同じFlowGraph仕様で両モデルを評価しました。同じ仕様、同じプロンプト、同じ評価基準です。

DeepSeek V4 Proは77/100のスコアでコスト$2.25、Opus 4.7（91）とKimi K2.6（68）の中間に位置しました。DeepSeek V4 Flashは60/100でコスト$0.02と、このテストでは過去にない低価格でしたが、ビルドに失敗し、重要な出力が欠けていました。

テストでは、20のエンドポイント、永続状態、リース管理、リトライ、イベントストリーミングを備えたワークフローオーケストレーションバックエンドを使用しました。DeepSeek V4 Proは独自のテストスイートに合格しましたが、TypeScriptのビルドは失敗しました。DeepSeek V4 Flashのテストスイートは、セットアップスクリプトがデータベースの強制リセットを試みてエラーとなったため、最初のテストも実行されませんでした。

DeepSeek V4 Proはシステムの大まかな構造は正しく、エンドポイントは配線され、テストスイートは合格し、プロジェクトレイアウトは妥当でした。問題は、Kimi K2.6と同じ領域、つまりリース期限切れ処理、スケジューリング、検証、ビルドの整合性に集中していました。例えば、ワーカーのリースが期限切れになった後でもステップを完了できてしまうバグや、ワークフローが並列上限に達した際に他のワークフローの候補をブロックしてしまう問題がありました。また、プロジェクトはビルドできず、TypeScript設定がコンパイル出力を生成しない一方で、package.jsonはその出力を実行することを期待していました。

DeepSeek V4 Flashにも同じリース期限切れ完了バグがあり、有効なリクエストペイロード（JSONオブジェクトのみを受け付け、配列を拒否）を拒否し、APIエンドポイントが誤ったルートプレフィックスにマウントされていました。さらに、ワークフローが失敗した後も、後続のステップが「待機中リトライ」状態になり、ワーカーにピックアップされる可能性がありました。ただし、ツール呼び出しの信頼性は予想以上に良好で、モデルはファイルの読み取り、依存関係のインストール、テストスイートの実行を適切に行い、壊れたコマンドでリトライループに陥ることはありませんでした。

コスト比較では、DeepSeek V4 FlashのポイントあたりのコストはKimi K2.6の約1/30、Opus 4.7の約1/100でした。スコアは低いものの、$0.02という超低コストは、複数回の試行を必要とするタスクで威力を発揮します。DeepSeek V4 Proは公式割引（2026年5月31日まで75%オフ）を適用すると、コストが約$0.55まで下がり、Kimi K2.6よりも低コストで9ポイント高いスコアを達成します。

全体的に、Claude Opus 4.7は依然としてリードしており、再現可能なバグは1つだけでした。DeepSeek V4 ProはKimi K2.6より優れていますが、ギャップはまだ存在します。DeepSeek V4 Flashは新しい価格カテゴリーを開拓し、完全に信頼できるわけではありませんが、$0.02での初回試行は計算式を変えるものです。