2026-05-28 22:09 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

DeepSWE：基于原创、长期工程任务的编码智能体评测

DeepSWE是一个新的基准测试，用于评估AI编码智能体在全新、复杂的软件工程任务上的表现。它避免了数据污染，覆盖了多样化的代码库，需要大量代码修改，并使用手工编写的验证器。领先模型表现差异显著，GPT-5.5以70%的准确率位居榜首。

来源Hacker News AI作者: sss111

当前的公共编码基准测试前沿已开始饱和：顶尖模型聚集在狭窄的分数区间内，相邻配置的置信区间往往重叠。DeepSWE是一个为拉开差距而构建的长期软件工程基准测试。它在现有公共基准测试的基础上实现了四项进步：

无数据污染：任务从零开始编写，而非改编自现有提交或PR，因此没有模型在预训练期间见过解决方案。

高多样性：任务涵盖5种语言的91个代码库。

真实世界复杂性：提示长度约为SWE-bench Pro的一半，但解决方案需要5.5倍代码量和约2倍输出token。

可靠验证：验证器手工编写，测试软件行为而非实现细节。

结果是一个反映当今前沿编码智能体在软件工程工作中实际表现的基准测试。

排行榜

所有模型均使用mini-swe-agent运行。

任务示例

所有113个任务详情请参见完整博客。

博客章节