GitHub Copilotエージェントハーネスのモデルとタスクにわたる性能と効率の評価
GitHub Copilotエージェントハーネスは、複数のベンチマークでモデルベンダーハーネスと同等のタスク完了率を達成しつつ、トークン消費が少なく、20以上のモデルをサポートします。
GitHub Copilotエージェントハーネスは、GitHub Copilot SDKの共有コンポーネントであり、GitHub Copilot CLI、GitHub Copilotアプリ、Copilotコードレビューなど様々なエクスペリエンスを支えています。このハーネスはツール、コンテキスト、ワークフローを効率的に調整し、複数のベンチマークでモデルベンダーハーネスと同等のタスク完了率を達成しつつ、トークン消費が低いことを示しています。
評価には、SWE-bench Verified(500の検証済みバグ修正タスク)、SWE-bench Pro(より難しい多段階タスク)、SkillsBench(エージェントのスキル使用評価)、TerminalBench(端末ベースのタスク)、内部のWin-Hillベンチマークを使用しました。モデルとタスクを固定し、GitHub Copilot CLIをClaude CodeやCodex CLIと比較しました。
結果、GitHub Copilotハーネスはタスク解決率で競合と同等であり、ほとんどの構成でトークン消費が少ないことがわかりました。TerminalBench 2.0の分散分析では、Copilotがタスク完了とコスト効率において競合と同等以上であり、実行間のばらつきが統計的ノイズの範囲内であることが示されました。また、GPTモデルはコスト効率が高く、Claude Opusは最高解決率を達成しており、GitHub Copilotはユーザーがタスクに最適なモデルを選択できる柔軟性を提供します。
このハーネスはGPT、Claude、Gemini、MAIシリーズの20以上の最先端モデルをサポートし、オープンソースやローカルモデル向けの独自キー持ち込みも可能です。マルチモデルアーキテクチャにより、Rubber Duck機能のように、あるモデルが別のモデルの作業をレビューして成果を向上させる独自の機能も実現しています。
結論として、GitHub Copilotエージェントハーネスは、多様なシナリオでモデルベンダーハーネスと同等の解決率を提供しつつ、トークンコストを削減し、マルチモデルの柔軟性によりベンダーロックインを回避します。開発者はタスクに最適なモデルを自由に選択できます。
方法論:すべての実行は2時間のタイムアウト、非対話型シングルターン、ウェブツール無効、全ツール許可で実施。TerminalBench 2分析ではデフォルト設定、推論努力は中程度。各モデルを少なくとも5回実行し、小規模ベンチマークでは最良スコアを報告。すべての指標はpass@1で表示。