DeepSWE:基于原创、长期工程任务的编码智能体评测
DeepSWE是一个新的基准测试,用于评估AI编码智能体在全新、复杂的软件工程任务上的表现。它避免了数据污染,覆盖了多样化的代码库,需要大量代码修改,并使用手工编写的验证器。领先模型表现差异显著,GPT-5.5以70%的准确率位居榜首。
文章情报
工程师进阶
要点
- DeepSWE是一个无数据污染的基准测试,任务均为原创。
- 任务涵盖5种编程语言中的91个代码库。
- 解决方案所需的代码量是SWE-bench Pro的5.5倍。
- GPT-5.5以70%的准确率领先,其他模型表现差距明显。
为什么重要
这条新闻值得关注,因为DeepSWE是一个无数据污染的基准测试,任务均为原创。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
当前的公共编码基准测试前沿已开始饱和:顶尖模型聚集在狭窄的分数区间内,相邻配置的置信区间往往重叠。DeepSWE是一个为拉开差距而构建的长期软件工程基准测试。它在现有公共基准测试的基础上实现了四项进步:
**无数据污染**:任务从零开始编写,而非改编自现有提交或PR,因此没有模型在预训练期间见过解决方案。
**高多样性**:任务涵盖5种语言的91个代码库。
**真实世界复杂性**:提示长度约为SWE-bench Pro的一半,但解决方案需要5.5倍代码量和约2倍输出token。
**可靠验证**:验证器手工编写,测试软件行为而非实现细节。
结果是一个反映当今前沿编码智能体在软件工程工作中实际表现的基准测试。
**排行榜**
- GPT-5.5 [xhigh]:70%±4%
- GPT-5.4 [xhigh]:56%±5%
- claude-opus-4.7 [max]:54%±5%
- claude-sonnet-4.6 [high]:32%±4%
- gemini-3.5-flash [medium]:28%±4%
- GPT-5.4-mini [xhigh]:24%±4%
- kimi-k2.6:24%±4%
- mimo-v2.5-pro:19%±4%
- glm-5.1:18%±4%
- gemini-3.1-pro:10%±3%
- deepseek-v4-pro:8%±2%
- gemini-3-flash:5%±2%
所有模型均使用mini-swe-agent运行。
**任务示例**
- 终止挂起的body读取:确保在关闭过程中中断的请求和响应body读取、formData解析以及丢弃的定时器干净地中止。
- 修复PromQL标签排序:混合类型和未类型标签值的排序必须遵循稳定的类型比较规则。
- 向Cliffy命令添加配置文件解析:增加命令级别的配置文件加载、解析、合并和优先级处理。
- 向Y.Map写入添加确定性冲突检测:对Y.Map键写入实施严格、确定性的冲突检测,带收集和错误策略。
- 向wasmi添加trap核心转储生成:在陷阱上生成可选的Wasm核心转储,并将字节附加到错误中。
- 向etree添加XML差异、补丁和合并操作:添加递归XML差异比较、补丁生成和应用、反向补丁、三路合并和差异摘要。
所有113个任务详情请参见完整博客。
**博客章节**
- 引言:为何需要新基准
- 概述:DeepSWE的独特之处
- 方法:任务和验证器如何构建
- 结果:前沿模型的分化
- 定性分析:各前沿模型如何失败
- 局限性与未来工作:我们会做何改进