MirrorCode:AI 能獨立完成的最大軟體專案是什麼?
AI 已能處理長期編碼任務,如 Claude Opus 4.7 用 14 小時、251 美元復現了包含 16000 行程式碼和 40+ 命令的生物資訊學工具 gotree。但 MirrorCode 基準測試滿分僅 56%,仍有提升空間。模型效能隨時間快速提升,但存在資料汙染問題。專案開源了 22/25 個目標程式。
人工智慧在長期程式設計任務上已展現顯著能力,但仍有很長的路要走。MirrorCode 基準測試的最新結果揭示了 AI 在獨立完成大型軟體專案方面的現狀與挑戰。
Claude Opus 4.7 成功復現了 gotree——一個包含約 16000 行 Go 程式碼和 40 多個命令的生物資訊學工具包。這一任務若由人類工程師完成,估計需要 2 到 17 周;而 Opus 4.7 僅用 14 小時,成本為 251 美元。然而,這並非完美復現:它透過了 2000 項測試中的 2001 項,僅在一個邊緣案例上失敗。MirrorCode 的整體基準分數僅為 56%,意味著在許多工上 AI 仍無法可靠地達到完美。
研究還發現 AI 模型能力隨時間快速提升。一年前的頂級模型得分約為 30%,且僅能處理像日曆工具這樣的簡單程式。成本方面沒有明確趨勢:GPT-5.5 的成本是 GPT-5 的 3 倍,而 Claude Opus 4.7 比 Opus 4.1 便宜 3 倍。
一個重要的注意事項是資料汙染。由於 MirrorCode 任務涉及復現開源程式,AI 模型可能已在預訓練中見過原始程式碼庫,這可能虛增基準效能。但研究顯示,AI 成功復現了透過記憶篩查的目標程式,而未能復現顯示出記憶證據的程式。這表明結果並非主要由記憶主導,但無法完全排除其貢獻。總體而言,期望 MirrorCode 衡量的能力能夠泛化到未見過的程式碼庫。
研究團隊開源了 25 個目標程式中的 22 個(共 132 個任務例項,涵蓋六種程式語言),其餘三個保留為私有測試集。這項工作由 METR 共同開發並獲得資助。
在 25 個目標中,AI 模型曾在 21 個上至少一次透過 99% 以上的測試。通常未透過的測試僅為少數邊緣案例。在更嚴格的 100% 測試透過閾值下,有 8 個目標從未被任何模型完全解決。基準分數低於 70%,因為有些目標並非可靠解決——AI 僅在部分執行時成功。