2026-06-27 04:14 UTC+8站内改写1 分钟阅读更新: 2026-06-27 04:15 UTC+8

MirrorCode：AI 能独立完成的最大软件项目是什么？

AI 已能处理长期编码任务，如 Claude Opus 4.7 用 14 小时、251 美元复现了包含 16000 行代码和 40+ 命令的生物信息学工具 gotree。但 MirrorCode 基准测试满分仅 56%，仍有提升空间。模型性能随时间快速提升，但存在数据污染问题。项目开源了 22/25 个目标程序。

来源Hacker News AI作者: tadamcz

人工智能在长期编程任务上已展现显著能力，但仍有很长的路要走。MirrorCode 基准测试的最新结果揭示了 AI 在独立完成大型软件项目方面的现状与挑战。

Claude Opus 4.7 成功复现了 gotree——一个包含约 16000 行 Go 代码和 40 多个命令的生物信息学工具包。这一任务若由人类工程师完成，估计需要 2 到 17 周；而 Opus 4.7 仅用 14 小时，成本为 251 美元。然而，这并非完美复现：它通过了 2000 项测试中的 2001 项，仅在一个边缘案例上失败。MirrorCode 的整体基准分数仅为 56%，意味着在许多任务上 AI 仍无法可靠地达到完美。

研究还发现 AI 模型能力随时间快速提升。一年前的顶级模型得分约为 30%，且仅能处理像日历工具这样的简单程序。成本方面没有明确趋势：GPT-5.5 的成本是 GPT-5 的 3 倍，而 Claude Opus 4.7 比 Opus 4.1 便宜 3 倍。

一个重要的注意事项是数据污染。由于 MirrorCode 任务涉及复现开源程序，AI 模型可能已在预训练中见过原始代码库，这可能虚增基准性能。但研究显示，AI 成功复现了通过记忆筛查的目标程序，而未能复现显示出记忆证据的程序。这表明结果并非主要由记忆主导，但无法完全排除其贡献。总体而言，期望 MirrorCode 衡量的能力能够泛化到未见过的代码库。

研究团队开源了 25 个目标程序中的 22 个（共 132 个任务实例，涵盖六种编程语言），其余三个保留为私有测试集。这项工作由 METR 共同开发并获得资助。

在 25 个目标中，AI 模型曾在 21 个上至少一次通过 99% 以上的测试。通常未通过的测试仅为少数边缘案例。在更严格的 100% 测试通过阈值下，有 8 个目标从未被任何模型完全解决。基准分数低于 70%，因为有些目标并非可靠解决——AI 仅在部分运行时成功。