2026-04-29站内改写

DeepSeek-V4 Pro 現已登陸 Together AI

DeepSeek-V4 Pro 是一款 1.6 萬億參數的 MoE 推理模型，現已在 Together AI 上線，提供 512K 上下文窗口、可控推理模式（非思考、深度思考、最大思考）以及緩存輸入定價，適用於代碼代理、文檔智能、長上下文代理和研究綜合等場景。

文章情報

工程師進階

要點

1.6T 參數 MoE 架構，激活參數 49B，Together AI 上提供 512K 上下文（模型支持 1M）
三種推理模式：非思考、深度思考、最大思考，靈活匹配任務難度
定價：輸入 $2.10/百萬 tokens，緩存輸入 $0.20/百萬 tokens，輸出 $4.40/百萬 tokens（緩存可節省 90% 成本）
適用於代碼代理、文檔智能、長上下文跟蹤和研究綜合等負載

為甚麼重要

這條新聞值得關注，因為1.6T 參數 MoE 架構，激活參數 49B，Together AI 上提供 512K 上下文（模型支持 1M）。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Together AI 宣佈在其平台上正式推出 DeepSeek-V4 Pro，這是一款擁有 1.6 萬億參數的混合專家（MoE）推理模型，專為長上下文推理場景設計。該模型在 Together AI 上支持高達 512K token 的上下文窗口，而模型本身支持 1M token。這一部署使團隊能夠將整個代碼庫、大型文檔集、長代理軌跡等直接放入模型的工作上下文中，無需壓縮為脆弱的摘要。

DeepSeek-V4 Pro 採用 MoE 架構，每次推理僅激活 49B 參數，結合混合注意力機制（壓縮稀疏注意力和高度壓縮注意力），在百萬 token 上下文中，推理 FLOPs 僅為 DeepSeek V3.2 的 27%，KV 緩存佔用僅為 10%。這使得長上下文推理在工程上更可行。

一個關鍵特性是可控推理模式，包括三種選項：非思考（Non-Think）適用於簡單抽取和分類；深度思考（Think High）適用於代碼規劃、文檔分析和多步推理；最大思考（Think Max）適用於複雜調試和深度研究綜合。團隊可以根據任務難度靈活選擇，而不是對每個請求一視同仁。

定價方面，DeepSeek-V4 Pro 的輸入 token 價格為每百萬 $2.10，緩存輸入 token 僅需 $0.20（節省 90%），輸出 token 為 $4.40。這種緩存定價對於重複使用相同上下文的場景（如對同一代碼庫或文檔集進行多次查詢）特別有吸引力。

典型工作負載包括：代碼代理（利用深度思考或最大思考進行跨文件推理）、文檔智能（合同比對、政策分析）、長上下文代理跟蹤（檢查工具調用歷史）和研究綜合（組合多篇論文和報告）。

DeepSeek-V4 Pro 可通過 Together AI 的 Serverless 推理和月度預留基礎設施使用。Serverless 適合評估和開發，預留容量適合穩定生產需求。團隊可以從 Serverless 開始，然後遷移到專用部署以獲得完整 1M 上下文、預留容量和工作負載隔離。

感興趣的用户可以立即通過 Together AI 的 Playground 或 API 嘗試該模型。Together AI 還提供了快速入門指南和模型頁面。Flash 版本即將推出，為速度和成本敏感的工作負載提供另一種選擇。