DeepSWE 结果不可靠——同一模型解决了全部 3/3 个“失败”任务
对 DeepSWE 基准测试的审计发现,deepseek-v4-pro 的报告结果(8% 解决率,平均成本 4.22 美元)存在多个问题:成本因忽略缓存定价膨胀约 5 倍,所有三个失败任务均被同一模型成功解决,OpenRouter 隐私设置默认阻止 DeepSeek 导致 404 错误,且模型未像竞品一样进行推理努力调优。
一项针对 DeepSWE 基准测试的详细审计揭示了 deepseek-v4-pro 模型报告结果中的系统性错误。该模型在基准测试中仅达到 8% 的解决率,平均每次任务成本为 4.22 美元,但这些数字严重偏离实际情况。审计团队发现了多个相互独立的问题,共同导致 DeepSWE 的结论不可靠。
成本计算是最大的失误。DeepSWE 对所有输入令牌均按全额缓存未命中率(每百万令牌 0.435 美元)计费,而实际上 DeepSeek 的 API 对缓存命中提供了 99.2% 的折扣,命中率高达 78%。以代表性任务 abs-module-cache-flags 为例,DeepSWE 报告成本 4.36 美元,但按正确缓存定价仅约 0.89 美元,剩余 0.41 美元无法解释。这意味着基准测试的成本平均被夸大了约 5 倍。
更值得注意的是,审计团队使用完全相同的模型 deepseek-v4-pro,重新运行了 DeepSWE 报告中所有三个失败的任务。这些任务涵盖了不同的代码库问题,包括 bandit-incremental-cache-control、termenv-preserve-ansi-resets 和 superjson-error-stack-serialization。在相同任务定义和测试验证器下,三个任务全部通过,综合 API 成本仅约 0.86 美元。这直接否定了 DeepSWE 关于该模型在这些任务上失败的结论。
审计还发现了基础设施层面的问题。OpenRouter 的默认隐私设置会阻止可能使用数据进行训练的提供商,而 DeepSeek 恰好属于此类。如果不手动在 OpenRouter 设置中启用 DeepSeek,API 将返回 404 错误,且 DeepSWE 未设置任何回退机制,导致重复重试浪费大量时间和金钱。此外,deepseek-v4-pro 在基准测试中以默认推理设置运行,而所有其他竞品模型均获得了精心调优的推理努力级别(如 xhigh、max 等)。DeepSeek 的思考模式默认开启,进一步增加了不必要的推理令牌成本。
审计团队提出了几点建议:修复缓存定价计算以反映实际成本;增加错误回退机制以防止 404 循环;对 deepseek-v4-pro 进行适当的努力级别调优并测试不同模式;审计 OpenRouter 的提供商路由以确保并非所有请求都来自正确的模型。这些发现对于依赖 DeepSWE 结果评估模型性能的研究人员和开发者具有重要的警示意义。