2026-05-28 22:09 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

DeepSWE：基於原創、長期工程任務的編碼智慧體評測

DeepSWE是一個新的基準測試，用於評估AI編碼智慧體在全新、複雜的軟體工程任務上的表現。它避免了資料汙染，覆蓋了多樣化的程式碼庫，需要大量程式碼修改，並使用手工編寫的驗證器。領先模型表現差異顯著，GPT-5.5以70%的準確率位居榜首。

來源Hacker News AI作者: sss111

當前的公共編碼基準測試前沿已開始飽和：頂尖模型聚集在狹窄的分數區間內，相鄰配置的置信區間往往重疊。DeepSWE是一個為拉開差距而構建的長期軟體工程基準測試。它在現有公共基準測試的基礎上實現了四項進步：

無資料汙染：任務從零開始編寫，而非改編自現有提交或PR，因此沒有模型在預訓練期間見過解決方案。

高多樣性：任務涵蓋5種語言的91個程式碼庫。

真實世界複雜性：提示長度約為SWE-bench Pro的一半，但解決方案需要5.5倍程式碼量和約2倍輸出token。

可靠驗證：驗證器手工編寫，測試軟體行為而非實現細節。

結果是一個反映當今前沿編碼智慧體在軟體工程工作中實際表現的基準測試。

排行榜

所有模型均使用mini-swe-agent執行。

任務示例

所有113個任務詳情請參見完整部落格。

部落格章節