DeepSWE v1.1:更清潔、更可復現的編碼智慧體基準測試
DeepSWE v1.1 在保持原有長週期工程任務不變的基礎上,改進了智慧體的執行與評分方式,採用隔離環境驗證程式碼補丁,使結果更易復現、審計和分析。新版引入了 Claude Fable 5 和 Kimi K2.7 Code 模型,整體透過率與模型排名與 v1 接近。
DeepSWE v1.1 更新了基準測試的執行與評分機制,旨在提供更可復現、更易審計的結果。與 v1 相同,它仍然評估前沿編碼智慧體在長期工程任務上的表現,但透過隔離驗證、結構化測試報告和更自然的 Git 環境,使結果更加可靠。
新版引入了兩個新模型:Claude Fable 5 和 Kimi K2.7 Code。儘管設定有所變化,但聚合透過率和模型排名與 v1 基本一致。在 113 個任務中,Claude Fable 5 以 70% 的 Pass@1 領先,GPT-5.5 為 67%,Claude Opus 4.8 為 59%。值得注意的是,Claude Fable 5 的部分試驗因美國政府的指令而中斷,但透過率仍基於完成的試驗計算。
核心改進包括:
- 隔離驗證:智慧體提交更改後,系統提取 Git 補丁並在獨立容器中應用並執行測試,與智慧體工作環境分離,從而確保評分不受執行時環境影響。
- 結構化測試報告:測試輸出 CTRF 格式報告,記錄每個測試的名稱和狀態,便於逐項分析並發現部分進展。
- 自然 Git 環境:智慧體現在可以在 main 分支上工作,建立特性分支並顯式提交更改,模擬正常開發流程。同時,透過刪除未來提交歷史,防止智慧體透過 git log 作弊。
這些變化使得任務更難被“鑽空子”。例如,智慧體無法再透過修補測試框架或提前退出來獲得假透過。
在影響方面,v1.1 與 v1 的結果對比如下:大多數配置的透過率變化在幾個百分點內,頂部模型排序未變。例如,GPT-5.5(xhigh)從 70% 微降至 67%,而 Gemini 3.5 Flash(medium)從 28% 上升至 37%。具體任務層面的變化也被詳細列出,個別任務有顯著波動,但整體趨勢穩定。
此外,由於牆鍾時間高度依賴主機效能和提供方負載,該版本不再報告此指標。
DeepSWE v1.1 的程式碼和所有執行軌跡已在 GitHub 上公開,研究人員可以自行執行智慧體進行驗證。