2026-06-27 04:14 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 04:15 UTC+8

MirrorCode：AI 能獨立完成的最大軟體專案是什麼？

AI 已能處理長期編碼任務，如 Claude Opus 4.7 用 14 小時、251 美元復現了包含 16000 行程式碼和 40+ 命令的生物資訊學工具 gotree。但 MirrorCode 基準測試滿分僅 56%，仍有提升空間。模型效能隨時間快速提升，但存在資料汙染問題。專案開源了 22/25 個目標程式。

來源Hacker News AI作者: tadamcz

人工智慧在長期程式設計任務上已展現顯著能力，但仍有很長的路要走。MirrorCode 基準測試的最新結果揭示了 AI 在獨立完成大型軟體專案方面的現狀與挑戰。

Claude Opus 4.7 成功復現了 gotree——一個包含約 16000 行 Go 程式碼和 40 多個命令的生物資訊學工具包。這一任務若由人類工程師完成，估計需要 2 到 17 周；而 Opus 4.7 僅用 14 小時，成本為 251 美元。然而，這並非完美復現：它透過了 2000 項測試中的 2001 項，僅在一個邊緣案例上失敗。MirrorCode 的整體基準分數僅為 56%，意味著在許多工上 AI 仍無法可靠地達到完美。

研究還發現 AI 模型能力隨時間快速提升。一年前的頂級模型得分約為 30%，且僅能處理像日曆工具這樣的簡單程式。成本方面沒有明確趨勢：GPT-5.5 的成本是 GPT-5 的 3 倍，而 Claude Opus 4.7 比 Opus 4.1 便宜 3 倍。

一個重要的注意事項是資料汙染。由於 MirrorCode 任務涉及復現開源程式，AI 模型可能已在預訓練中見過原始程式碼庫，這可能虛增基準效能。但研究顯示，AI 成功復現了透過記憶篩查的目標程式，而未能復現顯示出記憶證據的程式。這表明結果並非主要由記憶主導，但無法完全排除其貢獻。總體而言，期望 MirrorCode 衡量的能力能夠泛化到未見過的程式碼庫。

研究團隊開源了 25 個目標程式中的 22 個（共 132 個任務例項，涵蓋六種程式語言），其餘三個保留為私有測試集。這項工作由 METR 共同開發並獲得資助。

在 25 個目標中，AI 模型曾在 21 個上至少一次透過 99% 以上的測試。通常未透過的測試僅為少數邊緣案例。在更嚴格的 100% 測試透過閾值下，有 8 個目標從未被任何模型完全解決。基準分數低於 70%，因為有些目標並非可靠解決——AI 僅在部分執行時成功。