2026-06-27 04:14 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 04:15 UTC+8

MirrorCode：AI 能獨立完成的最大軟件項目是什麼？

AI 已能處理長期編碼任務，如 Claude Opus 4.7 用 14 小時、251 美元復現了包含 16000 行代碼和 40+ 命令的生物信息學工具 gotree。但 MirrorCode 基準測試滿分僅 56%，仍有提升空間。模型性能隨時間快速提升，但存在數據污染問題。項目開源了 22/25 個目標程序。

來源Hacker News AI作者: tadamcz

人工智能在長期編程任務上已展現顯著能力，但仍有很長的路要走。MirrorCode 基準測試的最新結果揭示了 AI 在獨立完成大型軟件項目方面的現狀與挑戰。

Claude Opus 4.7 成功復現了 gotree——一個包含約 16000 行 Go 代碼和 40 多個命令的生物信息學工具包。這一任務若由人類工程師完成，估計需要 2 到 17 周；而 Opus 4.7 僅用 14 小時，成本為 251 美元。然而，這並非完美復現：它通過了 2000 項測試中的 2001 項，僅在一個邊緣案例上失敗。MirrorCode 的整體基準分數僅為 56%，意味着在許多任務上 AI 仍無法可靠地達到完美。

研究還發現 AI 模型能力隨時間快速提升。一年前的頂級模型得分約為 30%，且僅能處理像日曆工具這樣的簡單程序。成本方面沒有明確趨勢：GPT-5.5 的成本是 GPT-5 的 3 倍，而 Claude Opus 4.7 比 Opus 4.1 便宜 3 倍。

一個重要的注意事項是數據污染。由於 MirrorCode 任務涉及復現開源程序，AI 模型可能已在預訓練中見過原始代碼庫，這可能虛增基準性能。但研究顯示，AI 成功復現了通過記憶篩查的目標程序，而未能復現顯示出記憶證據的程序。這表明結果並非主要由記憶主導，但無法完全排除其貢獻。總體而言，期望 MirrorCode 衡量的能力能夠泛化到未見過的代碼庫。

研究團隊開源了 25 個目標程序中的 22 個（共 132 個任務實例，涵蓋六種編程語言），其餘三個保留為私有測試集。這項工作由 METR 共同開發並獲得資助。

在 25 個目標中，AI 模型曾在 21 個上至少一次通過 99% 以上的測試。通常未通過的測試僅為少數邊緣案例。在更嚴格的 100% 測試通過閾值下，有 8 個目標從未被任何模型完全解決。基準分數低於 70%，因為有些目標並非可靠解決——AI 僅在部分運行時成功。