2026-06-19站内改写1 分钟阅读更新: 2026-06-19

DeepSWE v1.1：更清洁、更可复现的编码智能体基准测试

DeepSWE v1.1 在保持原有长周期工程任务不变的基础上，改进了智能体的执行与评分方式，采用隔离环境验证代码补丁，使结果更易复现、审计和分析。新版引入了 Claude Fable 5 和 Kimi K2.7 Code 模型，整体通过率与模型排名与 v1 接近。

来源Hacker News AI作者: aesincs

DeepSWE v1.1 更新了基准测试的执行与评分机制，旨在提供更可复现、更易审计的结果。与 v1 相同，它仍然评估前沿编码智能体在长期工程任务上的表现，但通过隔离验证、结构化测试报告和更自然的 Git 环境，使结果更加可靠。

新版引入了两个新模型：Claude Fable 5 和 Kimi K2.7 Code。尽管设置有所变化，但聚合通过率和模型排名与 v1 基本一致。在 113 个任务中，Claude Fable 5 以 70% 的 Pass@1 领先，GPT-5.5 为 67%，Claude Opus 4.8 为 59%。值得注意的是，Claude Fable 5 的部分试验因美国政府的指令而中断，但通过率仍基于完成的试验计算。

核心改进包括：

隔离验证：智能体提交更改后，系统提取 Git 补丁并在独立容器中应用并运行测试，与智能体工作环境分离，从而确保评分不受运行时环境影响。
结构化测试报告：测试输出 CTRF 格式报告，记录每个测试的名称和状态，便于逐项分析并发现部分进展。
自然 Git 环境：智能体现在可以在 main 分支上工作，创建特性分支并显式提交更改，模拟正常开发流程。同时，通过删除未来提交历史，防止智能体通过 git log 作弊。

这些变化使得任务更难被“钻空子”。例如，智能体无法再通过修补测试框架或提前退出来获得假通过。

在影响方面，v1.1 与 v1 的结果对比如下：大多数配置的通过率变化在几个百分点内，顶部模型排序未变。例如，GPT-5.5（xhigh）从 70% 微降至 67%，而 Gemini 3.5 Flash（medium）从 28% 上升至 37%。具体任务层面的变化也被详细列出，个别任务有显著波动，但整体趋势稳定。

此外，由于墙钟时间高度依赖主机性能和提供方负载，该版本不再报告此指标。

DeepSWE v1.1 的代码和所有运行轨迹已在 GitHub 上公开，研究人员可以自行运行智能体进行验证。