Senior SWE-Bench:評估智慧體是否具備高階工程師能力的開源基準測試
Senior SWE-Bench是一個新的開源基準測試,旨在評估AI智慧體像高階工程師一樣處理未充分指定的任務、進行執行時除錯以及提供優雅解決方案的能力。該基準包含50個公開和50個私有任務,涵蓋多種程式語言和棧,結果顯示頂尖模型在高階別任務上仍有超過75%的失敗率。
Senior SWE-Bench是一個全新的開源基準測試,專門用於評估AI智慧體是否具備高階軟體工程師的實戰能力。與以往那些側重於標準化問題的基準不同,Senior SWE-Bench精心設計了三種反映真實工作場景的任務型別:功能任務、錯誤任務和程式碼品味評估。
功能任務模擬高階工程師收到自然語言指令而非詳盡需求說明的情況。例如,一個任務要求為BookWorm專案新增Google Books作為後設資料源,指令簡短而開放,智慧體需要自行理解並實現完整的整合方案。錯誤任務則源於真實的使用者問題報告,智慧體必須進行執行時調查,包括啟動服務、檢查日誌和分析效能資料,才能定位並修復問題。程式碼品味評估不僅檢查功能正確性,還透過驗證器對解決方案的簡潔性、可維護性等進行評分。
為了可靠地評估這些任務,Senior SWE-Bench引入了驗證智慧體,它使用專家設計的配方編寫行為測試,能夠根據提交的解決方案自適應調整測試用例。此外,基準還包含“品味評分”機制,結合執行時正確性測試和基於實際程式碼庫實踐的多個質量指標,確保只有符合高階標準的解決方案才能獲得高分。
測試集包含50個公開任務和50個私有任務,涉及PostHog、Gitea等知名倉庫,覆蓋Python、Elixir、Go、SQL、Rust等多種語言和棧。每個任務平均需要數百步才能完成,代表了真實的長期開發工作。
目前,頂尖AI模型在該基準上的表現仍不盡如人意。例如,Claude Opus 4.8在最大努力下的透過率僅為24%,而其他模型如GPT-5.5和Claude Sonnet 5也分別只有16%和19.4%的透過率。這表明,即使是最先進的智慧體,在高階工程任務上仍有超過75%的失敗率,凸顯了高階工程師能力的複雜性。
Senior SWE-Bench的釋出為AI智慧體評估樹立了新的標杆,推動了從程式碼補全到高階工程決策的跨越。開發者可訪問官方部落格瞭解更多技術細節。