2026-04-29站内改写

DeepSeek-V4 Pro 现已登陆 Together AI

DeepSeek-V4 Pro 是一款 1.6 万亿参数的 MoE 推理模型，现已在 Together AI 上线，提供 512K 上下文窗口、可控推理模式（非思考、深度思考、最大思考）以及缓存输入定价，适用于代码代理、文档智能、长上下文代理和研究综合等场景。

文章情报

工程师进阶

要点

1.6T 参数 MoE 架构，激活参数 49B，Together AI 上提供 512K 上下文（模型支持 1M）
三种推理模式：非思考、深度思考、最大思考，灵活匹配任务难度
定价：输入 $2.10/百万 tokens，缓存输入 $0.20/百万 tokens，输出 $4.40/百万 tokens（缓存可节省 90% 成本）
适用于代码代理、文档智能、长上下文跟踪和研究综合等负载

为什么重要

这条新闻值得关注，因为1.6T 参数 MoE 架构，激活参数 49B，Together AI 上提供 512K 上下文（模型支持 1M）。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Together AI 宣布在其平台上正式推出 DeepSeek-V4 Pro，这是一款拥有 1.6 万亿参数的混合专家（MoE）推理模型，专为长上下文推理场景设计。该模型在 Together AI 上支持高达 512K token 的上下文窗口，而模型本身支持 1M token。这一部署使团队能够将整个代码库、大型文档集、长代理轨迹等直接放入模型的工作上下文中，无需压缩为脆弱的摘要。

DeepSeek-V4 Pro 采用 MoE 架构，每次推理仅激活 49B 参数，结合混合注意力机制（压缩稀疏注意力和高度压缩注意力），在百万 token 上下文中，推理 FLOPs 仅为 DeepSeek V3.2 的 27%，KV 缓存占用仅为 10%。这使得长上下文推理在工程上更可行。

一个关键特性是可控推理模式，包括三种选项：非思考（Non-Think）适用于简单抽取和分类；深度思考（Think High）适用于代码规划、文档分析和多步推理；最大思考（Think Max）适用于复杂调试和深度研究综合。团队可以根据任务难度灵活选择，而不是对每个请求一视同仁。

定价方面，DeepSeek-V4 Pro 的输入 token 价格为每百万 $2.10，缓存输入 token 仅需 $0.20（节省 90%），输出 token 为 $4.40。这种缓存定价对于重复使用相同上下文的场景（如对同一代码库或文档集进行多次查询）特别有吸引力。

典型工作负载包括：代码代理（利用深度思考或最大思考进行跨文件推理）、文档智能（合同比对、政策分析）、长上下文代理跟踪（检查工具调用历史）和研究综合（组合多篇论文和报告）。

DeepSeek-V4 Pro 可通过 Together AI 的 Serverless 推理和月度预留基础设施使用。Serverless 适合评估和开发，预留容量适合稳定生产需求。团队可以从 Serverless 开始，然后迁移到专用部署以获得完整 1M 上下文、预留容量和工作负载隔离。

感兴趣的用户可以立即通过 Together AI 的 Playground 或 API 尝试该模型。Together AI 还提供了快速入门指南和模型页面。Flash 版本即将推出，为速度和成本敏感的工作负载提供另一种选择。