DeepSeek-V4 Pro 現已登陸 Together AI
DeepSeek-V4 Pro 是一款 1.6 萬億引數的 MoE 推理模型,現已在 Together AI 上線,提供 512K 上下文視窗、可控推理模式(非思考、深度思考、最大思考)以及快取輸入定價,適用於程式碼代理、文件智慧、長上下文代理和研究綜合等場景。
文章情報
要點
- 1.6T 引數 MoE 架構,啟用引數 49B,Together AI 上提供 512K 上下文(模型支援 1M)
- 三種推理模式:非思考、深度思考、最大思考,靈活匹配任務難度
- 定價:輸入 $2.10/百萬 tokens,快取輸入 $0.20/百萬 tokens,輸出 $4.40/百萬 tokens(快取可節省 90% 成本)
- 適用於程式碼代理、文件智慧、長上下文跟蹤和研究綜合等負載
為什麼重要
這條新聞值得關注,因為1.6T 引數 MoE 架構,啟用引數 49B,Together AI 上提供 512K 上下文(模型支援 1M)。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Together AI 宣佈在其平臺上正式推出 DeepSeek-V4 Pro,這是一款擁有 1.6 萬億引數的混合專家(MoE)推理模型,專為長上下文推理場景設計。該模型在 Together AI 上支援高達 512K token 的上下文視窗,而模型本身支援 1M token。這一部署使團隊能夠將整個程式碼庫、大型文件集、長代理軌跡等直接放入模型的工作上下文中,無需壓縮為脆弱的摘要。
DeepSeek-V4 Pro 採用 MoE 架構,每次推理僅啟用 49B 引數,結合混合注意力機制(壓縮稀疏注意力和高度壓縮注意力),在百萬 token 上下文中,推理 FLOPs 僅為 DeepSeek V3.2 的 27%,KV 快取佔用僅為 10%。這使得長上下文推理在工程上更可行。
一個關鍵特性是可控推理模式,包括三種選項:非思考(Non-Think)適用於簡單抽取和分類;深度思考(Think High)適用於程式碼規劃、文件分析和多步推理;最大思考(Think Max)適用於複雜除錯和深度研究綜合。團隊可以根據任務難度靈活選擇,而不是對每個請求一視同仁。
定價方面,DeepSeek-V4 Pro 的輸入 token 價格為每百萬 $2.10,快取輸入 token 僅需 $0.20(節省 90%),輸出 token 為 $4.40。這種快取定價對於重複使用相同上下文的場景(如對同一程式碼庫或文件集進行多次查詢)特別有吸引力。
典型工作負載包括:程式碼代理(利用深度思考或最大思考進行跨檔案推理)、文件智慧(合同比對、政策分析)、長上下文代理跟蹤(檢查工具呼叫歷史)和研究綜合(組合多篇論文和報告)。
DeepSeek-V4 Pro 可透過 Together AI 的 Serverless 推理和月度預留基礎設施使用。Serverless 適合評估和開發,預留容量適合穩定生產需求。團隊可以從 Serverless 開始,然後遷移到專用部署以獲得完整 1M 上下文、預留容量和工作負載隔離。
感興趣的使用者可以立即透過 Together AI 的 Playground 或 API 嘗試該模型。Together AI 還提供了快速入門指南和模型頁面。Flash 版本即將推出,為速度和成本敏感的工作負載提供另一種選擇。