AI News HubLIVE
站内改写1 分钟阅读

DeepSWE v1.1:更清洁、更可复现的编码智能体基准测试

DeepSWE v1.1 在保持原有长周期工程任务不变的基础上,改进了智能体的执行与评分方式,采用隔离环境验证代码补丁,使结果更易复现、审计和分析。新版引入了 Claude Fable 5 和 Kimi K2.7 Code 模型,整体通过率与模型排名与 v1 接近。

来源Hacker News AI作者: aesincs

DeepSWE v1.1 更新了基准测试的执行与评分机制,旨在提供更可复现、更易审计的结果。与 v1 相同,它仍然评估前沿编码智能体在长期工程任务上的表现,但通过隔离验证、结构化测试报告和更自然的 Git 环境,使结果更加可靠。

新版引入了两个新模型:Claude Fable 5 和 Kimi K2.7 Code。尽管设置有所变化,但聚合通过率和模型排名与 v1 基本一致。在 113 个任务中,Claude Fable 5 以 70% 的 Pass@1 领先,GPT-5.5 为 67%,Claude Opus 4.8 为 59%。值得注意的是,Claude Fable 5 的部分试验因美国政府的指令而中断,但通过率仍基于完成的试验计算。

核心改进包括:

  • 隔离验证:智能体提交更改后,系统提取 Git 补丁并在独立容器中应用并运行测试,与智能体工作环境分离,从而确保评分不受运行时环境影响。
  • 结构化测试报告:测试输出 CTRF 格式报告,记录每个测试的名称和状态,便于逐项分析并发现部分进展。
  • 自然 Git 环境:智能体现在可以在 main 分支上工作,创建特性分支并显式提交更改,模拟正常开发流程。同时,通过删除未来提交历史,防止智能体通过 git log 作弊。

这些变化使得任务更难被“钻空子”。例如,智能体无法再通过修补测试框架或提前退出来获得假通过。

在影响方面,v1.1 与 v1 的结果对比如下:大多数配置的通过率变化在几个百分点内,顶部模型排序未变。例如,GPT-5.5(xhigh)从 70% 微降至 67%,而 Gemini 3.5 Flash(medium)从 28% 上升至 37%。具体任务层面的变化也被详细列出,个别任务有显著波动,但整体趋势稳定。

此外,由于墙钟时间高度依赖主机性能和提供方负载,该版本不再报告此指标。

DeepSWE v1.1 的代码和所有运行轨迹已在 GitHub 上公开,研究人员可以自行运行智能体进行验证。