DeepSeek-V4 Pro が Together AI で利用可能に
1.6兆パラメータのMoE推論モデルDeepSeek-V4 ProがTogether AIで利用可能になりました。512Kコンテキストウィンドウ、制御可能な推論モード、キャッシュ入力価格設定を備え、コードエージェント、ドキュメントインテリジェンス、研究合成などの長文脈推論ワークロードに最適です。
記事インテリジェンス
要点
- 1.6TパラメータMoE、アクティブパラメータ49B、Together AI上で512Kコンテキスト(モデルは1M対応)
- 3つの推論モード:Non-Think、Think High、Think Maxでタスクの難易度に応じて推論の深さを選択可能
- 価格:入力$2.10/100万トークン、キャッシュ入力$0.20/100万トークン(90%削減)、出力$4.40/100万トークン
- コードエージェント、ドキュメントインテリジェンス、長文脈エージェントトレース、研究合成に最適
重要な理由
このニュースが重要なのは、1.6TパラメータMoE、アクティブパラメータ49B、Together AI上で512Kコンテキスト(モデルは1M対応)ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Together AIは、長文脈推論ワークロード向けに設計された1.6兆パラメータのMoE(混合専門家)推論モデル「DeepSeek-V4 Pro」の提供開始を発表しました。このモデルはTogether AI上で512Kトークンのコンテキストウィンドウをサポートし(モデル自体は1Mトークンに対応)、コードエージェント、ドキュメントインテリジェンス、研究合成などの用途に適しています。
DeepSeek-V4 Proは、49Bのアクティブパラメータを持つMoEアーキテクチャを採用し、圧縮スパースアテンションと高圧縮アテンションを組み合わせたハイブリッドアテンション機構により、100万トークンのコンテキストにおいてDeepSeek V3.2と比較してシングルトークン推論FLOPsを27%、KVキャッシュを10%に削減します。
制御可能な推論モードが特徴で、Non-Think(抽出・分類などの単純タスク向け)、Think High(コード計画・文書分析などの中程度の推論)、Think Max(難しいデバッグ・深い研究合成など最大の推論努力)の3つを提供します。チームはタスクの複雑さに応じてモードを選択でき、すべてのリクエストに同じ推論コストをかける必要がありません。
価格設定は、入力トークンが100万トークンあたり$2.10、キャッシュ入力トークンが$0.20(90%のコスト削減)、出力トークンが$4.40です。キャッシュ入力価格は、同じコンテキスト(リポジトリスナップショットやドキュメントバンドルなど)を複数の質問で再利用するワークロードに特に有効です。
主なワークロードパターンとして、コードエージェント(リポジトリ全体の推論)、ドキュメントインテリジェンス(契約書やポリシーの比較)、長文脈エージェントトレース(ツール呼び出し履歴の分析)、研究合成(論文と報告書の統合)が挙げられます。
DeepSeek-V4 Proは、Together AIのサーバーレス推論と月額予約インフラの両方で利用可能です。サーバーレスは評価と開発に適しており、月額予約は安定した本番需要に対応します。チームはサーバーレスから始めて、必要に応じて専用デプロイメントに移行し、フル1Mコンテキスト、予約容量、ワークロード分離を実現できます。
現在、Together AIのPlaygroundまたはAPIを通じて即座に試用可能です。クイックスタートガイドやモデルページも提供されています。Flashバージョンも近日公開予定で、速度とコストを重視するワークロード向けの選択肢が追加されます。