DeepSWE v1.1:よりクリーンで再現性の高いコーディングエージェントベンチマーク
DeepSWE v1.1はv1と同じ長期的なエンジニアリングタスクを維持しつつ、エージェントの実行とスコアリング方法を改善。分離された環境でコードパッチを検証することで、結果の再現性と監査性を高めました。Claude Fable 5とKimi K2.7 Codeを追加し、総合的な合格率とモデル順位はv1とほぼ同じです。
DeepSWE v1.1は、ベンチマークの実行とスコアリングの仕組みを刷新し、より再現性が高く監査しやすい結果を提供します。v1と同じ長期的なエンジニアリングタスクを評価しますが、分離検証、構造化テストレポート、そしてより自然なGit環境を導入することで、信頼性を向上させています。
今回のアップデートでは、Claude Fable 5とKimi K2.7 Codeの2つの新しいモデルが追加されました。設定が変更されたにもかかわらず、総合合格率とモデル順位はv1とほぼ同じです。113タスクにおいて、Claude Fable 5が70%のPass@1でトップ、GPT-5.5が67%、Claude Opus 4.8が59%と続きます。なお、Claude Fable 5の試験の一部は米国政府の指示により中断されましたが、合格率は完了した試験に基づいて計算されています。
主な改善点は以下の通りです:
- 分離検証:エージェントが変更をコミットした後、gitパッチを抽出し、独立したコンテナで適用・テストを実行。エージェントの作業環境から切り離すことで、スコアリングが実行時環境の影響を受けないようにします。
- 構造化テストレポート:テストはCTRF形式のレポートを出力し、各テストの名前とステータスを記録。これにより、タスクごとの合格・不合格を詳細に分析でき、部分的な進捗も把握できます。
- 自然なGit環境:エージェントはmainブランチで作業し、フィーチャーブランチを作成して明示的にコミットできるようになりました。通常の開発フローを模倣し、さらに将来のコミット履歴を削除することで、git logを使った不正を防止します。
これらの変更により、タスクが「ゲーム」されにくくなりました。例えば、テストフレームワークを改変したり、早期終了でごまかしたりすることができなくなっています。
結果への影響を見ると、v1.1とv1の比較では、ほとんどの設定で合格率の変動は数ポイント以内に収まり、トップモデルの順位は変わりませんでした。GPT-5.5(xhigh)は70%から67%に微減、Gemini 3.5 Flash(medium)は28%から37%に上昇するなど、全体的に安定した結果となっています。個別タスクレベルでの変化も詳細にリストされており、一部で大きな変動があるものの、全体の傾向は一貫しています。
なお、ウォールクロック時間はホストマシンの性能やプロバイダの負荷に大きく依存するため、本バージョンでは報告を中止しました。
DeepSWE v1.1のコードとすべての実行軌跡はGitHubで公開されており、研究者は自身のエージェントを実行して検証することができます。