2026-06-05 00:32 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

DeepSWE 结果不可靠——同一模型解决了全部 3/3 个“失败”任务

对 DeepSWE 基准测试的审计发现，deepseek-v4-pro 的报告结果（8% 解决率，平均成本 4.22 美元）存在多个问题：成本因忽略缓存定价膨胀约 5 倍，所有三个失败任务均被同一模型成功解决，OpenRouter 隐私设置默认阻止 DeepSeek 导致 404 错误，且模型未像竞品一样进行推理努力调优。

来源Hacker News AI作者: theanonymousone

一项针对 DeepSWE 基准测试的详细审计揭示了 deepseek-v4-pro 模型报告结果中的系统性错误。该模型在基准测试中仅达到 8% 的解决率，平均每次任务成本为 4.22 美元，但这些数字严重偏离实际情况。审计团队发现了多个相互独立的问题，共同导致 DeepSWE 的结论不可靠。

成本计算是最大的失误。DeepSWE 对所有输入令牌均按全额缓存未命中率（每百万令牌 0.435 美元）计费，而实际上 DeepSeek 的 API 对缓存命中提供了 99.2% 的折扣，命中率高达 78%。以代表性任务 abs-module-cache-flags 为例，DeepSWE 报告成本 4.36 美元，但按正确缓存定价仅约 0.89 美元，剩余 0.41 美元无法解释。这意味着基准测试的成本平均被夸大了约 5 倍。

更值得注意的是，审计团队使用完全相同的模型 deepseek-v4-pro，重新运行了 DeepSWE 报告中所有三个失败的任务。这些任务涵盖了不同的代码库问题，包括 bandit-incremental-cache-control、termenv-preserve-ansi-resets 和 superjson-error-stack-serialization。在相同任务定义和测试验证器下，三个任务全部通过，综合 API 成本仅约 0.86 美元。这直接否定了 DeepSWE 关于该模型在这些任务上失败的结论。

审计还发现了基础设施层面的问题。OpenRouter 的默认隐私设置会阻止可能使用数据进行训练的提供商，而 DeepSeek 恰好属于此类。如果不手动在 OpenRouter 设置中启用 DeepSeek，API 将返回 404 错误，且 DeepSWE 未设置任何回退机制，导致重复重试浪费大量时间和金钱。此外，deepseek-v4-pro 在基准测试中以默认推理设置运行，而所有其他竞品模型均获得了精心调优的推理努力级别（如 xhigh、max 等）。DeepSeek 的思考模式默认开启，进一步增加了不必要的推理令牌成本。

审计团队提出了几点建议：修复缓存定价计算以反映实际成本；增加错误回退机制以防止 404 循环；对 deepseek-v4-pro 进行适当的努力级别调优并测试不同模式；审计 OpenRouter 的提供商路由以确保并非所有请求都来自正确的模型。这些发现对于依赖 DeepSWE 结果评估模型性能的研究人员和开发者具有重要的警示意义。