DeepSWE:基於原創、長期工程任務的編碼智慧體評測
DeepSWE是一個新的基準測試,用於評估AI編碼智慧體在全新、複雜的軟體工程任務上的表現。它避免了資料汙染,覆蓋了多樣化的程式碼庫,需要大量程式碼修改,並使用手工編寫的驗證器。領先模型表現差異顯著,GPT-5.5以70%的準確率位居榜首。
文章情報
工程師進階
要點
- DeepSWE是一個無資料汙染的基準測試,任務均為原創。
- 任務涵蓋5種程式語言中的91個程式碼庫。
- 解決方案所需的程式碼量是SWE-bench Pro的5.5倍。
- GPT-5.5以70%的準確率領先,其他模型表現差距明顯。
為什麼重要
這條新聞值得關注,因為DeepSWE是一個無資料汙染的基準測試,任務均為原創。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
當前的公共編碼基準測試前沿已開始飽和:頂尖模型聚集在狹窄的分數區間內,相鄰配置的置信區間往往重疊。DeepSWE是一個為拉開差距而構建的長期軟體工程基準測試。它在現有公共基準測試的基礎上實現了四項進步:
**無資料汙染**:任務從零開始編寫,而非改編自現有提交或PR,因此沒有模型在預訓練期間見過解決方案。
**高多樣性**:任務涵蓋5種語言的91個程式碼庫。
**真實世界複雜性**:提示長度約為SWE-bench Pro的一半,但解決方案需要5.5倍程式碼量和約2倍輸出token。
**可靠驗證**:驗證器手工編寫,測試軟體行為而非實現細節。
結果是一個反映當今前沿編碼智慧體在軟體工程工作中實際表現的基準測試。
**排行榜**
- GPT-5.5 [xhigh]:70%±4%
- GPT-5.4 [xhigh]:56%±5%
- claude-opus-4.7 [max]:54%±5%
- claude-sonnet-4.6 [high]:32%±4%
- gemini-3.5-flash [medium]:28%±4%
- GPT-5.4-mini [xhigh]:24%±4%
- kimi-k2.6:24%±4%
- mimo-v2.5-pro:19%±4%
- glm-5.1:18%±4%
- gemini-3.1-pro:10%±3%
- deepseek-v4-pro:8%±2%
- gemini-3-flash:5%±2%
所有模型均使用mini-swe-agent執行。
**任務示例**
- 終止掛起的body讀取:確保在關閉過程中中斷的請求和響應body讀取、formData解析以及丟棄的定時器乾淨地中止。
- 修復PromQL標籤排序:混合型別和未型別標籤值的排序必須遵循穩定的型別比較規則。
- 向Cliffy命令新增配置檔案解析:增加命令級別的配置檔案載入、解析、合併和優先順序處理。
- 向Y.Map寫入新增確定性衝突檢測:對Y.Map鍵寫入實施嚴格、確定性的衝突檢測,帶收集和錯誤策略。
- 向wasmi新增trap核心轉儲生成:在陷阱上生成可選的Wasm核心轉儲,並將位元組附加到錯誤中。
- 向etree新增XML差異、補丁和合並操作:新增遞迴XML差異比較、補丁生成和應用、反向補丁、三路合併和差異摘要。
所有113個任務詳情請參見完整部落格。
**部落格章節**
- 引言:為何需要新基準
- 概述:DeepSWE的獨特之處
- 方法:任務和驗證器如何構建
- 結果:前沿模型的分化
- 定性分析:各前沿模型如何失敗
- 侷限性與未來工作:我們會做何改進