AI News HubLIVE
站内改写

DeepSWE:基於原創、長期工程任務的編碼智能體評測

DeepSWE是一個新的基準測試,用於評估AI編碼智能體在全新、複雜的軟件工程任務上的表現。它避免了數據污染,覆蓋了多樣化的代碼庫,需要大量代碼修改,並使用手工編寫的驗證器。領先模型表現差異顯著,GPT-5.5以70%的準確率位居榜首。

文章情報

工程師進階

要點

  • DeepSWE是一個無數據污染的基準測試,任務均為原創。
  • 任務涵蓋5種編程語言中的91個代碼庫。
  • 解決方案所需的代碼量是SWE-bench Pro的5.5倍。
  • GPT-5.5以70%的準確率領先,其他模型表現差距明顯。

為甚麼重要

這條新聞值得關注,因為DeepSWE是一個無數據污染的基準測試,任務均為原創。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

當前的公共編碼基準測試前沿已開始飽和:頂尖模型聚集在狹窄的分數區間內,相鄰配置的置信區間往往重疊。DeepSWE是一個為拉開差距而構建的長期軟件工程基準測試。它在現有公共基準測試的基礎上實現了四項進步:

**無數據污染**:任務從零開始編寫,而非改編自現有提交或PR,因此沒有模型在預訓練期間見過解決方案。

**高多樣性**:任務涵蓋5種語言的91個代碼庫。

**真實世界複雜性**:提示長度約為SWE-bench Pro的一半,但解決方案需要5.5倍代碼量和約2倍輸出token。

**可靠驗證**:驗證器手工編寫,測試軟件行為而非實現細節。

結果是一個反映當今前沿編碼智能體在軟件工程工作中實際表現的基準測試。

**排行榜**

  • GPT-5.5 [xhigh]:70%±4%
  • GPT-5.4 [xhigh]:56%±5%
  • claude-opus-4.7 [max]:54%±5%
  • claude-sonnet-4.6 [high]:32%±4%
  • gemini-3.5-flash [medium]:28%±4%
  • GPT-5.4-mini [xhigh]:24%±4%
  • kimi-k2.6:24%±4%
  • mimo-v2.5-pro:19%±4%
  • glm-5.1:18%±4%
  • gemini-3.1-pro:10%±3%
  • deepseek-v4-pro:8%±2%
  • gemini-3-flash:5%±2%

所有模型均使用mini-swe-agent運行。

**任務示例**

  • 終止掛起的body讀取:確保在關閉過程中中斷的請求和響應body讀取、formData解析以及丟棄的定時器乾淨地中止。
  • 修復PromQL標籤排序:混合類型和未類型標籤值的排序必須遵循穩定的類型比較規則。
  • 向Cliffy命令添加配置文件解析:增加命令級別的配置文件加載、解析、合併和優先級處理。
  • 向Y.Map寫入添加確定性衝突檢測:對Y.Map鍵寫入實施嚴格、確定性的衝突檢測,帶收集和錯誤策略。
  • 向wasmi添加trap核心轉儲生成:在陷阱上生成可選的Wasm核心轉儲,並將字節附加到錯誤中。
  • 向etree添加XML差異、補丁和合並操作:添加遞歸XML差異比較、補丁生成和應用、反向補丁、三路合併和差異摘要。

所有113個任務詳情請參見完整博客。

**博客章節**

  1. 引言:為何需要新基準
  2. 概述:DeepSWE的獨特之處
  3. 方法:任務和驗證器如何構建
  4. 結果:前沿模型的分化
  5. 定性分析:各前沿模型如何失敗
  6. 侷限性與未來工作:我們會做何改進