評估GitHub Copilot代理框架在多種模型和任務中的效能與效率
GitHub Copilot代理框架在多個基準測試中實現了與模型供應商框架相當的任務完成率,但token消耗更低,並支援20多種模型。
GitHub Copilot代理框架是GitHub Copilot SDK的一個共享元件,為GitHub Copilot CLI、GitHub Copilot應用和Copilot程式碼審查等多種體驗提供支援。該框架透過統一協調工具、上下文和工作流程,在多個基準測試中展現了與模型供應商框架相當的任務完成率,同時token消耗更低。
在評估中,我們使用了SWE-bench Verified(500個來自開源Python倉庫的人工驗證修復任務)、SWE-bench Pro(更困難的多步驟工程任務)、SkillsBench(評估代理技能使用能力)、TerminalBench(終端任務效能)以及內部基準Win-Hill(Windows容器內任務)。我們固定模型和任務,將GitHub Copilot CLI與相應的模型供應商框架(Claude Code和Codex CLI)進行了對比。
結果表明,GitHub Copilot框架在任務解決率上與競爭對手持平,但token消耗更低。在TerminalBench 2.0的方差分析中,我們看到Copilot在任務完成和成本效率上均不低於或優於同一模型的競爭者,且執行間差異在統計噪聲範圍內。圖表還展示了GPT模型在成本效率上的優勢,以及Claude Opus在最高解決率上的領先,而GitHub Copilot允許使用者根據任務選擇最合適的模型。
該框架支援GPT、Claude、Gemini和MAI系列中的20多種前沿模型,並允許自帶金鑰接入開源和本地模型。多模型架構還帶來了獨特能力,例如Rubber Duck功能,讓一個模型審查另一個模型的工作,從而超越單一模型的效果。
總之,GitHub Copilot代理框架在多種場景下提供了與模型供應商框架相當的解決率,同時降低了token成本,並透過多模型靈活性避免了供應商鎖定。開發者可以自由選擇最適合任務的模型。
方法:所有執行採用兩小時超時,非互動式單次執行,停用網路工具,允許所有工具。TerminalBench 2分析採用預設設定,中等推理努力。每個模型至少執行五次,較小基準測試報告最佳得分。所有指標為pass@1。