Senior SWE-Bench:评估智能体是否具备高级工程师能力的开源基准测试
Senior SWE-Bench是一个新的开源基准测试,旨在评估AI智能体像高级工程师一样处理未充分指定的任务、进行运行时调试以及提供优雅解决方案的能力。该基准包含50个公开和50个私有任务,涵盖多种编程语言和栈,结果显示顶尖模型在高级别任务上仍有超过75%的失败率。
Senior SWE-Bench是一个全新的开源基准测试,专门用于评估AI智能体是否具备高级软件工程师的实战能力。与以往那些侧重于标准化问题的基准不同,Senior SWE-Bench精心设计了三种反映真实工作场景的任务类型:功能任务、错误任务和代码品味评估。
功能任务模拟高级工程师收到自然语言指令而非详尽需求说明的情况。例如,一个任务要求为BookWorm项目添加Google Books作为元数据源,指令简短而开放,智能体需要自行理解并实现完整的集成方案。错误任务则源于真实的用户问题报告,智能体必须进行运行时调查,包括启动服务、检查日志和分析性能数据,才能定位并修复问题。代码品味评估不仅检查功能正确性,还通过验证器对解决方案的简洁性、可维护性等进行评分。
为了可靠地评估这些任务,Senior SWE-Bench引入了验证智能体,它使用专家设计的配方编写行为测试,能够根据提交的解决方案自适应调整测试用例。此外,基准还包含“品味评分”机制,结合运行时正确性测试和基于实际代码库实践的多个质量指标,确保只有符合高级标准的解决方案才能获得高分。
测试集包含50个公开任务和50个私有任务,涉及PostHog、Gitea等知名仓库,覆盖Python、Elixir、Go、SQL、Rust等多种语言和栈。每个任务平均需要数百步才能完成,代表了真实的长期开发工作。
目前,顶尖AI模型在该基准上的表现仍不尽如人意。例如,Claude Opus 4.8在最大努力下的通过率仅为24%,而其他模型如GPT-5.5和Claude Sonnet 5也分别只有16%和19.4%的通过率。这表明,即使是最先进的智能体,在高级工程任务上仍有超过75%的失败率,凸显了高级工程师能力的复杂性。
Senior SWE-Bench的发布为AI智能体评估树立了新的标杆,推动了从代码补全到高级工程决策的跨越。开发者可访问官方博客了解更多技术细节。