AI News HubLIVE
站內改寫1 分鐘閱讀

MirrorCode:AI 能獨立完成的最大軟件項目是什麼?

AI 已能處理長期編碼任務,如 Claude Opus 4.7 用 14 小時、251 美元復現了包含 16000 行代碼和 40+ 命令的生物信息學工具 gotree。但 MirrorCode 基準測試滿分僅 56%,仍有提升空間。模型性能隨時間快速提升,但存在數據污染問題。項目開源了 22/25 個目標程序。

來源Hacker News AI作者: tadamcz

人工智能在長期編程任務上已展現顯著能力,但仍有很長的路要走。MirrorCode 基準測試的最新結果揭示了 AI 在獨立完成大型軟件項目方面的現狀與挑戰。

Claude Opus 4.7 成功復現了 gotree——一個包含約 16000 行 Go 代碼和 40 多個命令的生物信息學工具包。這一任務若由人類工程師完成,估計需要 2 到 17 周;而 Opus 4.7 僅用 14 小時,成本為 251 美元。然而,這並非完美復現:它通過了 2000 項測試中的 2001 項,僅在一個邊緣案例上失敗。MirrorCode 的整體基準分數僅為 56%,意味着在許多任務上 AI 仍無法可靠地達到完美。

研究還發現 AI 模型能力隨時間快速提升。一年前的頂級模型得分約為 30%,且僅能處理像日曆工具這樣的簡單程序。成本方面沒有明確趨勢:GPT-5.5 的成本是 GPT-5 的 3 倍,而 Claude Opus 4.7 比 Opus 4.1 便宜 3 倍。

一個重要的注意事項是數據污染。由於 MirrorCode 任務涉及復現開源程序,AI 模型可能已在預訓練中見過原始代碼庫,這可能虛增基準性能。但研究顯示,AI 成功復現了通過記憶篩查的目標程序,而未能復現顯示出記憶證據的程序。這表明結果並非主要由記憶主導,但無法完全排除其貢獻。總體而言,期望 MirrorCode 衡量的能力能夠泛化到未見過的代碼庫。

研究團隊開源了 25 個目標程序中的 22 個(共 132 個任務實例,涵蓋六種編程語言),其餘三個保留為私有測試集。這項工作由 METR 共同開發並獲得資助。

在 25 個目標中,AI 模型曾在 21 個上至少一次通過 99% 以上的測試。通常未通過的測試僅為少數邊緣案例。在更嚴格的 100% 測試通過閾值下,有 8 個目標從未被任何模型完全解決。基準分數低於 70%,因為有些目標並非可靠解決——AI 僅在部分運行時成功。