2026-05-04 20:32 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Import AI 455：人工智慧系統即將開始自我構建

本文分析了AI在程式設計、科學研究和工程任務上的快速進展，認為到2028年底有60%以上的可能性實現無人類參與的AI研發——即AI系統能自主構建其繼任者。作者從SWE-Bench、METR時間線、CORE-Bench、MLE-Bench等基準測試的資料出發，論證了AI在程式碼生成、科學可重複性、競賽解決、核心最佳化、模型微調等方面的能力已接近或超越人類水平。文章還討論了AI管理AI的元技能、創造性潛力以及自動化AI研發對對齊問題、經濟生產力倍增和“機器經濟”形成的深遠影響。

來源Import AI作者: Jack Clark

文章情報

工程師進階

要點

SWE-Bench上AI解決真實GitHub問題的成功率從2023年底的2%升至2026年的93.9%，METR顯示AI可自主完成的任務時間從2022年的30秒增至2026年的12小時。
在科學複製（CORE-Bench）、Kaggle競賽（MLE-Bench）、核心設計、模型微調（PostTrainBench）等關鍵AI研發任務上，AI系統已達到或接近人類水平。
AI已能管理其他AI系統，形成合成團隊處理複雜專案；在數學等領域也展現出初步的創造性（如解決埃爾德什問題）。
作者估計到2028年底有60%機率出現前沿模型自主訓練繼任者，並警示對齊錯誤、經濟不平等和全自動企業等挑戰。

為什麼重要

這條新聞值得關注，因為SWE-Bench上AI解決真實GitHub問題的成功率從2023年底的2%升至2026年的93.9%，METR顯示AI可自主完成的任務時間從2022年的30秒增至2026年的12小時。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

人工智慧系統正在迅速逼近一個里程碑：它們可能很快就能自主設計並構建自己的繼任者。本文基於公開可得的基準測試資料和研究進展，論證了無人類參與的AI研發（即AI系統能夠自主構建更強大的後繼系統）很可能在2028年底之前成為現實，機率超過60%。

程式設計能力的指數級增長 AI系統的核心能力——程式設計——在過去幾年中取得了驚人進步。SWE-Bench是評估AI解決真實GitHub問題的標準測試，2023年底最佳系統（Claude 2）的成功率僅為2%左右，而到2026年初，Claude Mythos Preview已達到93.9%，幾乎飽和。與此同時，METR的“時間跨度”測試衡量AI可自主完成的任務時長（按熟練人類所需時間計），從2022年GPT-3.5的30秒，到2026年Opus 4.6的12小時，增長超過1400倍。這直接轉化為AI在軟體工程中的實際應用：多數前沿實驗室的工程師現在完全透過AI編寫程式碼、撰寫測試和審查程式碼。

科學研發技能的全方位突破 AI不僅在程式設計上表現出色，還逐步掌握了AI研發所需的核心科學技能。在計算可重複性基準CORE-Bench上，AI從2024年9月的21.5%準確率躍升至2025年12月的95.5%（Opus 4.5），宣告該基準被“解決”。在模仿Kaggle競賽的MLE-Bench上，最佳系統的得分從2024年10月的16.9%升至2026年2月的64.4%（Gemini3）。更貼近AI研發的任務——如核心最佳化、模型微調——同樣進展顯著：Anthropic的內部測試顯示，AI最佳化語言模型訓練程式碼的速度增益從2025年5月的2.9倍提升至2026年4月的52倍（Claude Mythos Preview），而人類研究員通常需要4-8小時才能達到4倍加速。PostTrainBench則測試AI對小型開源模型進行指令微調的能力，截至2026年4月，最佳AI系統（Opus 4.6和GPT 5.4）能達到人類水平的25-28%。

AI管理AI：複合團隊的形成 AI系統已能夠監督和管理其他AI系統。Claude Code或OpenCode等工具允許單個AI代理協調多個子代理，形成合成研究團隊。這種“元管理”能力使AI可以處理大規模專案，其中一些AI承擔導演、評論家或編輯角色，另一些則作為工程師。Anthropic的自動化對齊研究實驗進一步證明，AI代理團隊在給定研究方向後，能夠自主提出超越人類基線的對齊技術——雖然目前規模較小，但預示著AI在研究中的自主性正在提升。

創造性瓶頸與光明前景 儘管AI在“汗水”（工程任務）上表現卓越，但在“靈感”（根本性創新）方面仍有限。大多數AI進步來自人類對現有系統的規模化改進，而非正規化革命。然而，在數學領域已出現令人鼓舞的跡象：AI系統在大約700個埃爾德什問題中找到了13個解，其中一個被數學家認為具有獨立價值；UBC、斯坦福和Google DeepMind的聯合團隊使用Gemini輔助發現了新的數學證明。這些案例表明AI可能正在獲得某些創造性直覺。

結論與影響 綜合所有證據，作者認為自動化AI研發（即前沿模型能自主訓練其繼任者）在2028年底前發生的機率為60%，2027年機率為30%。若未能實現，則可能意味著當前技術正規化存在根本性缺陷。這一趨勢將引發深刻挑戰：對齊技術可能因遞迴自我改進而失效（如累積錯誤）；AI將大幅提升所有接觸領域的生產力，但可能加劇接入不平等；資本密集、人力稀疏的“機器經濟”將嵌入人類經濟，催生全自動企業，帶來治理與分配難題。文章最後呼籲社會正視這一不再科幻的前景，並儘早準備。