DeepSWE:オリジナルかつ長期のエンジニアリングタスクにおけるコーディングエージェントの評価
DeepSWEは、AIコーディングエージェントを未踏の複雑なソフトウェアエンジニアリングタスクで評価する新しいベンチマークです。データ汚染を回避し、多様なリポジトリをカバーし、大幅なコード変更を必要とし、手書きの検証器を使用します。最先端モデル間で性能に大きな差が見られ、GPT-5.5が70%の精度でリードしています。
記事インテリジェンス
要点
- DeepSWEはオリジナルタスクによる汚染フリーのベンチマークです。
- タスクは5言語、91リポジトリにわたります。
- ソリューションにはSWE-bench Proの5.5倍のコード量が必要です。
- GPT-5.5が70%の精度でトップ、他のモデルは大きく離されています。
重要な理由
このニュースが重要なのは、DeepSWEはオリジナルタスクによる汚染フリーのベンチマークですためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
現在の主要な公開コーディングベンチマークは先端で飽和しつつあります。トップモデルは狭いスコア帯に集中し、隣接する設定の信頼区間が重なることがよくあります。DeepSWEは、それらを分離するために構築された長期ソフトウェアエンジニアリングベンチマークです。既存の公開ベンチマークに対して4つの進歩をもたらします。
**汚染フリー**:タスクは既存のコミットやPRからではなく、ゼロから作成されるため、どのモデルも事前学習中に解法を見ていません。
**高い多様性**:タスクは5言語、91のリポジトリにわたる幅広いプールをカバーします。
**現実世界の複雑さ**:プロンプトの長さはSWE-bench Proの約半分ですが、ソリューションには5.5倍のコード量と約2倍の出力トークンが必要です。
**信頼性の高い検証**:検証器は実装の詳細ではなくソフトウェアの動作をテストするために手書きされています。
その結果、今日の最先端コーディングエージェントがソフトウェアエンジニアリング業務で実際にどのように機能するかを反映したベンチマークが得られました。
**リーダーボード**
- GPT-5.5 [xhigh]:70%±4%
- GPT-5.4 [xhigh]:56%±5%
- claude-opus-4.7 [max]:54%±5%
- claude-sonnet-4.6 [high]:32%±4%
- gemini-3.5-flash [medium]:28%±4%
- GPT-5.4-mini [xhigh]:24%±4%
- kimi-k2.6:24%±4%
- mimo-v2.5-pro:19%±4%
- glm-5.1:18%±4%
- gemini-3.1-pro:10%±3%
- deepseek-v4-pro:8%±2%
- gemini-3-flash:5%±2%
すべてのモデルはmini-swe-agentで実行されています。
**タスク例**
- シャットダウン時の保留中のボディ読み取りを中断:シャットダウン中に中断されたリクエストとレスポンスのボディ読み取り、formData解析、破棄されたタイマーがクリーンに中断されることを保証します。
- PromQLラベルソートの修正:混合型および非型ラベル値のソートは、安定した型比較ルールに従う必要があります。
- Cliffyコマンドへの設定ファイル解析の追加:コマンドレベルの設定ファイルのロード、解析、マージ、優先順位処理を追加します。
- Y.Map書き込みへの決定論的競合検出の追加:Y.Mapキー書き込みに対する厳密で決定論的な競合検出をコレクションおよびエラーポリシーと共に追加します。
- wasmiへのトラップコアダンプ生成の追加:トラップ時にオプトインのWasmコアダンプを生成し、バイトをエラーに添付します。
- etreeへのXML差分、パッチ、マージ操作の追加:再帰的XML差分、パッチ生成と適用、逆パッチ、3方向マージ、差分サマリーを追加します。
全113タスクの詳細は完全なブログをご覧ください。
**ブログセクション**
- はじめに:なぜ新しいベンチマークが必要か
- 概要:DeepSWEを際立たせるもの
- 方法論:タスクと検証器の構築方法
- 結果:最先端モデルの分散
- 定性的分析:各最先端モデルの失敗パターン
- 制限と今後の課題:異なるアプローチ