2026-05-04 20:32 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Import AI 455：人工智能系统即将开始自我构建

本文分析了AI在编程、科学研究和工程任务上的快速进展，认为到2028年底有60%以上的可能性实现无人类参与的AI研发——即AI系统能自主构建其继任者。作者从SWE-Bench、METR时间线、CORE-Bench、MLE-Bench等基准测试的数据出发，论证了AI在代码生成、科学可重复性、竞赛解决、内核优化、模型微调等方面的能力已接近或超越人类水平。文章还讨论了AI管理AI的元技能、创造性潜力以及自动化AI研发对对齐问题、经济生产力倍增和“机器经济”形成的深远影响。

来源Import AI作者: Jack Clark

文章情报

工程师进阶

要点

SWE-Bench上AI解决真实GitHub问题的成功率从2023年底的2%升至2026年的93.9%，METR显示AI可自主完成的任务时间从2022年的30秒增至2026年的12小时。
在科学复制（CORE-Bench）、Kaggle竞赛（MLE-Bench）、内核设计、模型微调（PostTrainBench）等关键AI研发任务上，AI系统已达到或接近人类水平。
AI已能管理其他AI系统，形成合成团队处理复杂项目；在数学等领域也展现出初步的创造性（如解决埃尔德什问题）。
作者估计到2028年底有60%概率出现前沿模型自主训练继任者，并警示对齐错误、经济不平等和全自动企业等挑战。

为什么重要

这条新闻值得关注，因为SWE-Bench上AI解决真实GitHub问题的成功率从2023年底的2%升至2026年的93.9%，METR显示AI可自主完成的任务时间从2022年的30秒增至2026年的12小时。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

人工智能系统正在迅速逼近一个里程碑：它们可能很快就能自主设计并构建自己的继任者。本文基于公开可得的基准测试数据和研究进展，论证了无人类参与的AI研发（即AI系统能够自主构建更强大的后继系统）很可能在2028年底之前成为现实，概率超过60%。

编程能力的指数级增长 AI系统的核心能力——编程——在过去几年中取得了惊人进步。SWE-Bench是评估AI解决真实GitHub问题的标准测试，2023年底最佳系统（Claude 2）的成功率仅为2%左右，而到2026年初，Claude Mythos Preview已达到93.9%，几乎饱和。与此同时，METR的“时间跨度”测试衡量AI可自主完成的任务时长（按熟练人类所需时间计），从2022年GPT-3.5的30秒，到2026年Opus 4.6的12小时，增长超过1400倍。这直接转化为AI在软件工程中的实际应用：多数前沿实验室的工程师现在完全通过AI编写代码、撰写测试和审查代码。

科学研发技能的全方位突破 AI不仅在编程上表现出色，还逐步掌握了AI研发所需的核心科学技能。在计算可重复性基准CORE-Bench上，AI从2024年9月的21.5%准确率跃升至2025年12月的95.5%（Opus 4.5），宣告该基准被“解决”。在模仿Kaggle竞赛的MLE-Bench上，最佳系统的得分从2024年10月的16.9%升至2026年2月的64.4%（Gemini3）。更贴近AI研发的任务——如内核优化、模型微调——同样进展显著：Anthropic的内部测试显示，AI优化语言模型训练代码的速度增益从2025年5月的2.9倍提升至2026年4月的52倍（Claude Mythos Preview），而人类研究员通常需要4-8小时才能达到4倍加速。PostTrainBench则测试AI对小型开源模型进行指令微调的能力，截至2026年4月，最佳AI系统（Opus 4.6和GPT 5.4）能达到人类水平的25-28%。

AI管理AI：复合团队的形成 AI系统已能够监督和管理其他AI系统。Claude Code或OpenCode等工具允许单个AI代理协调多个子代理，形成合成研究团队。这种“元管理”能力使AI可以处理大规模项目，其中一些AI承担导演、评论家或编辑角色，另一些则作为工程师。Anthropic的自动化对齐研究实验进一步证明，AI代理团队在给定研究方向后，能够自主提出超越人类基线的对齐技术——虽然目前规模较小，但预示着AI在研究中的自主性正在提升。

创造性瓶颈与光明前景 尽管AI在“汗水”（工程任务）上表现卓越，但在“灵感”（根本性创新）方面仍有限。大多数AI进步来自人类对现有系统的规模化改进，而非范式革命。然而，在数学领域已出现令人鼓舞的迹象：AI系统在大约700个埃尔德什问题中找到了13个解，其中一个被数学家认为具有独立价值；UBC、斯坦福和Google DeepMind的联合团队使用Gemini辅助发现了新的数学证明。这些案例表明AI可能正在获得某些创造性直觉。

结论与影响 综合所有证据，作者认为自动化AI研发（即前沿模型能自主训练其继任者）在2028年底前发生的概率为60%，2027年概率为30%。若未能实现，则可能意味着当前技术范式存在根本性缺陷。这一趋势将引发深刻挑战：对齐技术可能因递归自我改进而失效（如累积错误）；AI将大幅提升所有接触领域的生产力，但可能加剧接入不平等；资本密集、人力稀疏的“机器经济”将嵌入人类经济，催生全自动企业，带来治理与分配难题。文章最后呼吁社会正视这一不再科幻的前景，并尽早准备。