AI News HubLIVE
站内改写

DeepSeek-V4 Pro 現已登陸 Together AI

DeepSeek-V4 Pro 是一款 1.6 萬億參數的 MoE 推理模型,現已在 Together AI 上線,提供 512K 上下文窗口、可控推理模式(非思考、深度思考、最大思考)以及緩存輸入定價,適用於代碼代理、文檔智能、長上下文代理和研究綜合等場景。

文章情報

工程師進階

要點

  • 1.6T 參數 MoE 架構,激活參數 49B,Together AI 上提供 512K 上下文(模型支持 1M)
  • 三種推理模式:非思考、深度思考、最大思考,靈活匹配任務難度
  • 定價:輸入 $2.10/百萬 tokens,緩存輸入 $0.20/百萬 tokens,輸出 $4.40/百萬 tokens(緩存可節省 90% 成本)
  • 適用於代碼代理、文檔智能、長上下文跟蹤和研究綜合等負載

為甚麼重要

這條新聞值得關注,因為1.6T 參數 MoE 架構,激活參數 49B,Together AI 上提供 512K 上下文(模型支持 1M)。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Together AI 宣佈在其平台上正式推出 DeepSeek-V4 Pro,這是一款擁有 1.6 萬億參數的混合專家(MoE)推理模型,專為長上下文推理場景設計。該模型在 Together AI 上支持高達 512K token 的上下文窗口,而模型本身支持 1M token。這一部署使團隊能夠將整個代碼庫、大型文檔集、長代理軌跡等直接放入模型的工作上下文中,無需壓縮為脆弱的摘要。

DeepSeek-V4 Pro 採用 MoE 架構,每次推理僅激活 49B 參數,結合混合注意力機制(壓縮稀疏注意力和高度壓縮注意力),在百萬 token 上下文中,推理 FLOPs 僅為 DeepSeek V3.2 的 27%,KV 緩存佔用僅為 10%。這使得長上下文推理在工程上更可行。

一個關鍵特性是可控推理模式,包括三種選項:非思考(Non-Think)適用於簡單抽取和分類;深度思考(Think High)適用於代碼規劃、文檔分析和多步推理;最大思考(Think Max)適用於複雜調試和深度研究綜合。團隊可以根據任務難度靈活選擇,而不是對每個請求一視同仁。

定價方面,DeepSeek-V4 Pro 的輸入 token 價格為每百萬 $2.10,緩存輸入 token 僅需 $0.20(節省 90%),輸出 token 為 $4.40。這種緩存定價對於重複使用相同上下文的場景(如對同一代碼庫或文檔集進行多次查詢)特別有吸引力。

典型工作負載包括:代碼代理(利用深度思考或最大思考進行跨文件推理)、文檔智能(合同比對、政策分析)、長上下文代理跟蹤(檢查工具調用歷史)和研究綜合(組合多篇論文和報告)。

DeepSeek-V4 Pro 可通過 Together AI 的 Serverless 推理和月度預留基礎設施使用。Serverless 適合評估和開發,預留容量適合穩定生產需求。團隊可以從 Serverless 開始,然後遷移到專用部署以獲得完整 1M 上下文、預留容量和工作負載隔離。

感興趣的用户可以立即通過 Together AI 的 Playground 或 API 嘗試該模型。Together AI 還提供了快速入門指南和模型頁面。Flash 版本即將推出,為速度和成本敏感的工作負載提供另一種選擇。