评估GitHub Copilot代理框架在多种模型和任务中的性能与效率
GitHub Copilot代理框架在多个基准测试中实现了与模型供应商框架相当的任务完成率,但token消耗更低,并支持20多种模型。
GitHub Copilot代理框架是GitHub Copilot SDK的一个共享组件,为GitHub Copilot CLI、GitHub Copilot应用和Copilot代码审查等多种体验提供支持。该框架通过统一协调工具、上下文和工作流程,在多个基准测试中展现了与模型供应商框架相当的任务完成率,同时token消耗更低。
在评估中,我们使用了SWE-bench Verified(500个来自开源Python仓库的人工验证修复任务)、SWE-bench Pro(更困难的多步骤工程任务)、SkillsBench(评估代理技能使用能力)、TerminalBench(终端任务性能)以及内部基准Win-Hill(Windows容器内任务)。我们固定模型和任务,将GitHub Copilot CLI与相应的模型供应商框架(Claude Code和Codex CLI)进行了对比。
结果表明,GitHub Copilot框架在任务解决率上与竞争对手持平,但token消耗更低。在TerminalBench 2.0的方差分析中,我们看到Copilot在任务完成和成本效率上均不低于或优于同一模型的竞争者,且运行间差异在统计噪声范围内。图表还展示了GPT模型在成本效率上的优势,以及Claude Opus在最高解决率上的领先,而GitHub Copilot允许用户根据任务选择最合适的模型。
该框架支持GPT、Claude、Gemini和MAI系列中的20多种前沿模型,并允许自带密钥接入开源和本地模型。多模型架构还带来了独特能力,例如Rubber Duck功能,让一个模型审查另一个模型的工作,从而超越单一模型的效果。
总之,GitHub Copilot代理框架在多种场景下提供了与模型供应商框架相当的解决率,同时降低了token成本,并通过多模型灵活性避免了供应商锁定。开发者可以自由选择最适合任务的模型。
方法:所有运行采用两小时超时,非交互式单次运行,禁用网络工具,允许所有工具。TerminalBench 2分析采用默认设置,中等推理努力。每个模型至少运行五次,较小基准测试报告最佳得分。所有指标为pass@1。