Senior SWE-Bench:評估智能體是否具備高級工程師能力的開源基準測試
Senior SWE-Bench是一個新的開源基準測試,旨在評估AI智能體像高級工程師一樣處理未充分指定的任務、進行運行時調試以及提供優雅解決方案的能力。該基準包含50個公開和50個私有任務,涵蓋多種編程語言和棧,結果顯示頂尖模型在高級別任務上仍有超過75%的失敗率。
Senior SWE-Bench是一個全新的開源基準測試,專門用於評估AI智能體是否具備高級軟件工程師的實戰能力。與以往那些側重於標準化問題的基準不同,Senior SWE-Bench精心設計了三種反映真實工作場景的任務類型:功能任務、錯誤任務和代碼品味評估。
功能任務模擬高級工程師收到自然語言指令而非詳盡需求説明的情況。例如,一個任務要求為BookWorm項目添加Google Books作為元數據源,指令簡短而開放,智能體需要自行理解並實現完整的集成方案。錯誤任務則源於真實的用户問題報告,智能體必須進行運行時調查,包括啓動服務、檢查日誌和分析性能數據,才能定位並修復問題。代碼品味評估不僅檢查功能正確性,還通過驗證器對解決方案的簡潔性、可維護性等進行評分。
為了可靠地評估這些任務,Senior SWE-Bench引入了驗證智能體,它使用專家設計的配方編寫行為測試,能夠根據提交的解決方案自適應調整測試用例。此外,基準還包含“品味評分”機制,結合運行時正確性測試和基於實際代碼庫實踐的多個質量指標,確保只有符合高級標準的解決方案才能獲得高分。
測試集包含50個公開任務和50個私有任務,涉及PostHog、Gitea等知名倉庫,覆蓋Python、Elixir、Go、SQL、Rust等多種語言和棧。每個任務平均需要數百步才能完成,代表了真實的長期開發工作。
目前,頂尖AI模型在該基準上的表現仍不盡如人意。例如,Claude Opus 4.8在最大努力下的通過率僅為24%,而其他模型如GPT-5.5和Claude Sonnet 5也分別只有16%和19.4%的通過率。這表明,即使是最先進的智能體,在高級工程任務上仍有超過75%的失敗率,凸顯了高級工程師能力的複雜性。
Senior SWE-Bench的發佈為AI智能體評估樹立了新的標杆,推動了從代碼補全到高級工程決策的跨越。開發者可訪問官方博客瞭解更多技術細節。