AI News HubLIVE
站內改寫1 分鐘閱讀

評估GitHub Copilot代理框架在多種模型和任務中的性能與效率

GitHub Copilot代理框架在多個基準測試中實現了與模型供應商框架相當的任務完成率,但token消耗更低,並支持20多種模型。

來源GitHub AI & ML作者: Natalie Guevara

GitHub Copilot代理框架是GitHub Copilot SDK的一個共享組件,為GitHub Copilot CLI、GitHub Copilot應用和Copilot代碼審查等多種體驗提供支持。該框架通過統一協調工具、上下文和工作流程,在多個基準測試中展現了與模型供應商框架相當的任務完成率,同時token消耗更低。

在評估中,我們使用了SWE-bench Verified(500個來自開源Python倉庫的人工驗證修復任務)、SWE-bench Pro(更困難的多步驟工程任務)、SkillsBench(評估代理技能使用能力)、TerminalBench(終端任務性能)以及內部基準Win-Hill(Windows容器內任務)。我們固定模型和任務,將GitHub Copilot CLI與相應的模型供應商框架(Claude Code和Codex CLI)進行了對比。

結果表明,GitHub Copilot框架在任務解決率上與競爭對手持平,但token消耗更低。在TerminalBench 2.0的方差分析中,我們看到Copilot在任務完成和成本效率上均不低於或優於同一模型的競爭者,且運行間差異在統計噪聲範圍內。圖表還展示了GPT模型在成本效率上的優勢,以及Claude Opus在最高解決率上的領先,而GitHub Copilot允許用户根據任務選擇最合適的模型。

該框架支持GPT、Claude、Gemini和MAI系列中的20多種前沿模型,並允許自帶密鑰接入開源和本地模型。多模型架構還帶來了獨特能力,例如Rubber Duck功能,讓一個模型審查另一個模型的工作,從而超越單一模型的效果。

總之,GitHub Copilot代理框架在多種場景下提供了與模型供應商框架相當的解決率,同時降低了token成本,並通過多模型靈活性避免了供應商鎖定。開發者可以自由選擇最適合任務的模型。

方法:所有運行採用兩小時超時,非交互式單次運行,禁用網絡工具,允許所有工具。TerminalBench 2分析採用默認設置,中等推理努力。每個模型至少運行五次,較小基準測試報告最佳得分。所有指標為pass@1。