AI News HubLIVE
站内改写

DeepSeek-V4 Pro 现已登陆 Together AI

DeepSeek-V4 Pro 是一款 1.6 万亿参数的 MoE 推理模型,现已在 Together AI 上线,提供 512K 上下文窗口、可控推理模式(非思考、深度思考、最大思考)以及缓存输入定价,适用于代码代理、文档智能、长上下文代理和研究综合等场景。

文章情报

工程师进阶

要点

  • 1.6T 参数 MoE 架构,激活参数 49B,Together AI 上提供 512K 上下文(模型支持 1M)
  • 三种推理模式:非思考、深度思考、最大思考,灵活匹配任务难度
  • 定价:输入 $2.10/百万 tokens,缓存输入 $0.20/百万 tokens,输出 $4.40/百万 tokens(缓存可节省 90% 成本)
  • 适用于代码代理、文档智能、长上下文跟踪和研究综合等负载

为什么重要

这条新闻值得关注,因为1.6T 参数 MoE 架构,激活参数 49B,Together AI 上提供 512K 上下文(模型支持 1M)。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Together AI 宣布在其平台上正式推出 DeepSeek-V4 Pro,这是一款拥有 1.6 万亿参数的混合专家(MoE)推理模型,专为长上下文推理场景设计。该模型在 Together AI 上支持高达 512K token 的上下文窗口,而模型本身支持 1M token。这一部署使团队能够将整个代码库、大型文档集、长代理轨迹等直接放入模型的工作上下文中,无需压缩为脆弱的摘要。

DeepSeek-V4 Pro 采用 MoE 架构,每次推理仅激活 49B 参数,结合混合注意力机制(压缩稀疏注意力和高度压缩注意力),在百万 token 上下文中,推理 FLOPs 仅为 DeepSeek V3.2 的 27%,KV 缓存占用仅为 10%。这使得长上下文推理在工程上更可行。

一个关键特性是可控推理模式,包括三种选项:非思考(Non-Think)适用于简单抽取和分类;深度思考(Think High)适用于代码规划、文档分析和多步推理;最大思考(Think Max)适用于复杂调试和深度研究综合。团队可以根据任务难度灵活选择,而不是对每个请求一视同仁。

定价方面,DeepSeek-V4 Pro 的输入 token 价格为每百万 $2.10,缓存输入 token 仅需 $0.20(节省 90%),输出 token 为 $4.40。这种缓存定价对于重复使用相同上下文的场景(如对同一代码库或文档集进行多次查询)特别有吸引力。

典型工作负载包括:代码代理(利用深度思考或最大思考进行跨文件推理)、文档智能(合同比对、政策分析)、长上下文代理跟踪(检查工具调用历史)和研究综合(组合多篇论文和报告)。

DeepSeek-V4 Pro 可通过 Together AI 的 Serverless 推理和月度预留基础设施使用。Serverless 适合评估和开发,预留容量适合稳定生产需求。团队可以从 Serverless 开始,然后迁移到专用部署以获得完整 1M 上下文、预留容量和工作负载隔离。

感兴趣的用户可以立即通过 Together AI 的 Playground 或 API 尝试该模型。Together AI 还提供了快速入门指南和模型页面。Flash 版本即将推出,为速度和成本敏感的工作负载提供另一种选择。