AI News HubLIVE
站内改写1 分钟阅读

MirrorCode:AI 能独立完成的最大软件项目是什么?

AI 已能处理长期编码任务,如 Claude Opus 4.7 用 14 小时、251 美元复现了包含 16000 行代码和 40+ 命令的生物信息学工具 gotree。但 MirrorCode 基准测试满分仅 56%,仍有提升空间。模型性能随时间快速提升,但存在数据污染问题。项目开源了 22/25 个目标程序。

来源Hacker News AI作者: tadamcz

人工智能在长期编程任务上已展现显著能力,但仍有很长的路要走。MirrorCode 基准测试的最新结果揭示了 AI 在独立完成大型软件项目方面的现状与挑战。

Claude Opus 4.7 成功复现了 gotree——一个包含约 16000 行 Go 代码和 40 多个命令的生物信息学工具包。这一任务若由人类工程师完成,估计需要 2 到 17 周;而 Opus 4.7 仅用 14 小时,成本为 251 美元。然而,这并非完美复现:它通过了 2000 项测试中的 2001 项,仅在一个边缘案例上失败。MirrorCode 的整体基准分数仅为 56%,意味着在许多任务上 AI 仍无法可靠地达到完美。

研究还发现 AI 模型能力随时间快速提升。一年前的顶级模型得分约为 30%,且仅能处理像日历工具这样的简单程序。成本方面没有明确趋势:GPT-5.5 的成本是 GPT-5 的 3 倍,而 Claude Opus 4.7 比 Opus 4.1 便宜 3 倍。

一个重要的注意事项是数据污染。由于 MirrorCode 任务涉及复现开源程序,AI 模型可能已在预训练中见过原始代码库,这可能虚增基准性能。但研究显示,AI 成功复现了通过记忆筛查的目标程序,而未能复现显示出记忆证据的程序。这表明结果并非主要由记忆主导,但无法完全排除其贡献。总体而言,期望 MirrorCode 衡量的能力能够泛化到未见过的代码库。

研究团队开源了 25 个目标程序中的 22 个(共 132 个任务实例,涵盖六种编程语言),其余三个保留为私有测试集。这项工作由 METR 共同开发并获得资助。

在 25 个目标中,AI 模型曾在 21 个上至少一次通过 99% 以上的测试。通常未通过的测试仅为少数边缘案例。在更严格的 100% 测试通过阈值下,有 8 个目标从未被任何模型完全解决。基准分数低于 70%,因为有些目标并非可靠解决——AI 仅在部分运行时成功。