2026-04-29站内改写

DeepSeek-V4 Pro 現已登陸 Together AI

DeepSeek-V4 Pro 是一款 1.6 萬億引數的 MoE 推理模型，現已在 Together AI 上線，提供 512K 上下文視窗、可控推理模式（非思考、深度思考、最大思考）以及快取輸入定價，適用於程式碼代理、文件智慧、長上下文代理和研究綜合等場景。

文章情報

工程師進階

要點

1.6T 引數 MoE 架構，啟用引數 49B，Together AI 上提供 512K 上下文（模型支援 1M）
三種推理模式：非思考、深度思考、最大思考，靈活匹配任務難度
定價：輸入 $2.10/百萬 tokens，快取輸入 $0.20/百萬 tokens，輸出 $4.40/百萬 tokens（快取可節省 90% 成本）
適用於程式碼代理、文件智慧、長上下文跟蹤和研究綜合等負載

為什麼重要

這條新聞值得關注，因為1.6T 引數 MoE 架構，啟用引數 49B，Together AI 上提供 512K 上下文（模型支援 1M）。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Together AI 宣佈在其平臺上正式推出 DeepSeek-V4 Pro，這是一款擁有 1.6 萬億引數的混合專家（MoE）推理模型，專為長上下文推理場景設計。該模型在 Together AI 上支援高達 512K token 的上下文視窗，而模型本身支援 1M token。這一部署使團隊能夠將整個程式碼庫、大型文件集、長代理軌跡等直接放入模型的工作上下文中，無需壓縮為脆弱的摘要。

DeepSeek-V4 Pro 採用 MoE 架構，每次推理僅啟用 49B 引數，結合混合注意力機制（壓縮稀疏注意力和高度壓縮注意力），在百萬 token 上下文中，推理 FLOPs 僅為 DeepSeek V3.2 的 27%，KV 快取佔用僅為 10%。這使得長上下文推理在工程上更可行。

一個關鍵特性是可控推理模式，包括三種選項：非思考（Non-Think）適用於簡單抽取和分類；深度思考（Think High）適用於程式碼規劃、文件分析和多步推理；最大思考（Think Max）適用於複雜除錯和深度研究綜合。團隊可以根據任務難度靈活選擇，而不是對每個請求一視同仁。

定價方面，DeepSeek-V4 Pro 的輸入 token 價格為每百萬 $2.10，快取輸入 token 僅需 $0.20（節省 90%），輸出 token 為 $4.40。這種快取定價對於重複使用相同上下文的場景（如對同一程式碼庫或文件集進行多次查詢）特別有吸引力。

典型工作負載包括：程式碼代理（利用深度思考或最大思考進行跨檔案推理）、文件智慧（合同比對、政策分析）、長上下文代理跟蹤（檢查工具呼叫歷史）和研究綜合（組合多篇論文和報告）。

DeepSeek-V4 Pro 可透過 Together AI 的 Serverless 推理和月度預留基礎設施使用。Serverless 適合評估和開發，預留容量適合穩定生產需求。團隊可以從 Serverless 開始，然後遷移到專用部署以獲得完整 1M 上下文、預留容量和工作負載隔離。

感興趣的使用者可以立即透過 Together AI 的 Playground 或 API 嘗試該模型。Together AI 還提供了快速入門指南和模型頁面。Flash 版本即將推出，為速度和成本敏感的工作負載提供另一種選擇。