2026-05-15 09:39 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

我们测试了DeepSeek V4 Pro和Flash与Claude Opus 4.7及Kimi K2.6的对比

我们对DeepSeek V4 Pro和Flash进行了与Claude Opus 4.7和Kimi K2.6相同的FlowGraph基准测试。Pro得分77/100，价格$2.25；Flash得分60/100，价格$0.02。Pro在性能上介于Opus（91）和Kimi（68）之间，但存在构建和租赁处理问题。Flash成本极低，但输出缺少关键部分。

来源Hacker News AI作者: nl

DeepSeek于2026年4月24日发布了V4 Pro和V4 Flash，采用MIT许可证。这是DeepSeek自V3以来的首个新架构，也是其首个提供两个层级（Pro为旗舰，Flash为轻量级）的开放权重系列。我们使用与之前测试Claude Opus 4.7和Kimi K2.6相同的FlowGraph规范对两者进行了评估，包括相同的规格、提示和评分标准。

DeepSeek V4 Pro以77/100的成绩和$2.25的成本，性能介于Opus 4.7（91分）和Kimi K2.6（68分）之间。而DeepSeek V4 Flash仅获得60分，成本仅为$0.02，这是我们在该测试中从未见过的低价，但其构建失败，输出缺少一些关键部分。

在测试中，我们使用了一个包含20个端点、持久状态、租约管理、重试和事件流的工作流编排后端。DeepSeek V4 Pro通过了自身的测试套件，但TypeScript构建失败。DeepSeek V4 Flash的测试套件从未运行，因为其设置脚本试图强制重置数据库，导致第一个测试执行前就出错。

DeepSeek V4 Pro在系统整体结构上表现正确：端点已连接，测试套件通过，项目布局合理。但问题集中在租约到期处理、调度、验证和构建完整性上。例如，当工作进程的租约过期后，它仍然可以标记步骤为完成，这与README中的声明相矛盾。此外，当某个工作流达到并行限制时，其声明逻辑会阻塞其他工作流的候选步骤，导致工作进程闲置。项目也无法构建：npm test通过，但npm run build失败，且TypeScript配置未生成编译输出。

DeepSeek V4 Flash同样存在租约到期完成漏洞，且拒绝接受有效的请求载荷（仅接受JSON对象而非数组）。其API端点挂载在错误的路由前缀下，导致客户端无法启动工作流运行。更严重的是，当工作流失败后，后续步骤仍可能被错误地标记为“等待重试”，从而被工作进程拾取。不过，其工具调用能力出乎意料地好：模型在Kilo CLI中表现稳定，能正确读取文件、安装依赖并运行测试，没有出现常见的廉价模型失败模式。

在成本对比方面，DeepSeek V4 Flash每分成本约为Kimi K2.6的1/30和Opus 4.7的1/100。虽然分数较低，但$0.02的超低成本使其非常适合需要多次尝试的任务。DeepSeek V4 Pro在应用官方折扣后（75%优惠至2026年5月31日），成本可降至约$0.55，低于Kimi K2.6且分数高出9分。

总体而言，Claude Opus 4.7仍然领先，仅有一个可重现的漏洞。DeepSeek V4 Pro优于Kimi K2.6，但差距依然存在。DeepSeek V4 Flash则开创了新的价格类别，尽管不完全可靠，但$0.02的第一次尝试成本改变了计算方式。