AI News HubLIVE
站内改写

我们测试了DeepSeek V4 Pro和Flash与Claude Opus 4.7及Kimi K2.6的对比

我们对DeepSeek V4 Pro和Flash进行了与Claude Opus 4.7和Kimi K2.6相同的FlowGraph基准测试。Pro得分77/100,价格$2.25;Flash得分60/100,价格$0.02。Pro在性能上介于Opus(91)和Kimi(68)之间,但存在构建和租赁处理问题。Flash成本极低,但输出缺少关键部分。

文章情报

工程师进阶

要点

  • DeepSeek V4 Pro以77分和$2.25的价格位于Opus和Kimi之间。
  • DeepSeek V4 Flash以$0.02的成本获得60分,但存在构建失败和路由错误。
  • Pro和Flash都存在租赁过期完成漏洞。
  • Claude Opus 4.7仍然是表现最佳的模型。

为什么重要

这条新闻值得关注,因为DeepSeek V4 Pro以77分和$2.25的价格位于Opus和Kimi之间。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

DeepSeek于2026年4月24日发布了V4 Pro和V4 Flash,采用MIT许可证。这是DeepSeek自V3以来的首个新架构,也是其首个提供两个层级(Pro为旗舰,Flash为轻量级)的开放权重系列。我们使用与之前测试Claude Opus 4.7和Kimi K2.6相同的FlowGraph规范对两者进行了评估,包括相同的规格、提示和评分标准。

DeepSeek V4 Pro以77/100的成绩和$2.25的成本,性能介于Opus 4.7(91分)和Kimi K2.6(68分)之间。而DeepSeek V4 Flash仅获得60分,成本仅为$0.02,这是我们在该测试中从未见过的低价,但其构建失败,输出缺少一些关键部分。

在测试中,我们使用了一个包含20个端点、持久状态、租约管理、重试和事件流的工作流编排后端。DeepSeek V4 Pro通过了自身的测试套件,但TypeScript构建失败。DeepSeek V4 Flash的测试套件从未运行,因为其设置脚本试图强制重置数据库,导致第一个测试执行前就出错。

DeepSeek V4 Pro在系统整体结构上表现正确:端点已连接,测试套件通过,项目布局合理。但问题集中在租约到期处理、调度、验证和构建完整性上。例如,当工作进程的租约过期后,它仍然可以标记步骤为完成,这与README中的声明相矛盾。此外,当某个工作流达到并行限制时,其声明逻辑会阻塞其他工作流的候选步骤,导致工作进程闲置。项目也无法构建:npm test通过,但npm run build失败,且TypeScript配置未生成编译输出。

DeepSeek V4 Flash同样存在租约到期完成漏洞,且拒绝接受有效的请求载荷(仅接受JSON对象而非数组)。其API端点挂载在错误的路由前缀下,导致客户端无法启动工作流运行。更严重的是,当工作流失败后,后续步骤仍可能被错误地标记为“等待重试”,从而被工作进程拾取。不过,其工具调用能力出乎意料地好:模型在Kilo CLI中表现稳定,能正确读取文件、安装依赖并运行测试,没有出现常见的廉价模型失败模式。

在成本对比方面,DeepSeek V4 Flash每分成本约为Kimi K2.6的1/30和Opus 4.7的1/100。虽然分数较低,但$0.02的超低成本使其非常适合需要多次尝试的任务。DeepSeek V4 Pro在应用官方折扣后(75%优惠至2026年5月31日),成本可降至约$0.55,低于Kimi K2.6且分数高出9分。

总体而言,Claude Opus 4.7仍然领先,仅有一个可重现的漏洞。DeepSeek V4 Pro优于Kimi K2.6,但差距依然存在。DeepSeek V4 Flash则开创了新的价格类别,尽管不完全可靠,但$0.02的第一次尝试成本改变了计算方式。