2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

DeepSWE v1.1：更清潔、更可復現的編碼智慧體基準測試

DeepSWE v1.1 在保持原有長週期工程任務不變的基礎上，改進了智慧體的執行與評分方式，採用隔離環境驗證程式碼補丁，使結果更易復現、審計和分析。新版引入了 Claude Fable 5 和 Kimi K2.7 Code 模型，整體透過率與模型排名與 v1 接近。

來源Hacker News AI作者: aesincs

DeepSWE v1.1 更新了基準測試的執行與評分機制，旨在提供更可復現、更易審計的結果。與 v1 相同，它仍然評估前沿編碼智慧體在長期工程任務上的表現，但透過隔離驗證、結構化測試報告和更自然的 Git 環境，使結果更加可靠。

新版引入了兩個新模型：Claude Fable 5 和 Kimi K2.7 Code。儘管設定有所變化，但聚合透過率和模型排名與 v1 基本一致。在 113 個任務中，Claude Fable 5 以 70% 的 Pass@1 領先，GPT-5.5 為 67%，Claude Opus 4.8 為 59%。值得注意的是，Claude Fable 5 的部分試驗因美國政府的指令而中斷，但透過率仍基於完成的試驗計算。

核心改進包括：

隔離驗證：智慧體提交更改後，系統提取 Git 補丁並在獨立容器中應用並執行測試，與智慧體工作環境分離，從而確保評分不受執行時環境影響。
結構化測試報告：測試輸出 CTRF 格式報告，記錄每個測試的名稱和狀態，便於逐項分析並發現部分進展。
自然 Git 環境：智慧體現在可以在 main 分支上工作，建立特性分支並顯式提交更改，模擬正常開發流程。同時，透過刪除未來提交歷史，防止智慧體透過 git log 作弊。

這些變化使得任務更難被“鑽空子”。例如，智慧體無法再透過修補測試框架或提前退出來獲得假透過。

在影響方面，v1.1 與 v1 的結果對比如下：大多數配置的透過率變化在幾個百分點內，頂部模型排序未變。例如，GPT-5.5（xhigh）從 70% 微降至 67%，而 Gemini 3.5 Flash（medium）從 28% 上升至 37%。具體任務層面的變化也被詳細列出，個別任務有顯著波動，但整體趨勢穩定。

此外，由於牆鍾時間高度依賴主機效能和提供方負載，該版本不再報告此指標。

DeepSWE v1.1 的程式碼和所有執行軌跡已在 GitHub 上公開，研究人員可以自行執行智慧體進行驗證。