2026-05-04 21:32 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

Import AI 455：AIシステムが自己構築を始めようとしている

本稿は、2028年末までに人間を介さないAI研究開発（AIシステムが自律的に後継を構築すること）が60％以上の確率で実現すると論じる。根拠はSWE-Bench（2%→93.9%）、METR時間軸（30秒→12時間）、CORE-Bench（解決）、MLE-Bench（16.9%→64.4%）、カーネル設計、PostTrainBench（25-28% vs 人間51%）、AIによるAI管理などのベンチマークの急速な進歩に基づく。アライメント、経済的生産性、機械経済の出現への影響についても考察する。

ソースImport AI著者: Jack Clark

記事インテリジェンス

エンジニア上級

要点

SWE-Benchの成功率は2023年末の2%から2026年に93.9%に上昇、METRの時間軸は2022年の30秒から2026年に12時間に拡大。
論文再現（CORE-Bench）、Kaggleコンペ（MLE-Bench）、カーネル設計、モデル微調整（PostTrainBench）、学習最適化など、中核的なAI研究開発タスクで人間に匹敵または近づいている。
AIシステムは他のAIを管理し、合成チームを形成可能。数学（エルデシュ問題解決）では創造性の兆候も見られる。
著者は2028年末までにフロンティアモデルが後継を自律訓練する確率を60%と見積もり、アライメント失敗、不平等、完全自動企業などの課題を警告。

重要な理由

このニュースが重要なのは、SWE-Benchの成功率は2023年末の2%から2026年に93.9%に上昇、METRの時間軸は2022年の30秒から2026年に12時間に拡大ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

人工知能システムは急速に、自らの後継を自律的に設計・構築できるようになりつつある。本稿は公開ベンチマークと研究の進展に基づき、人間を介さないAI研究開発（AIシステムが自律的により強力な後継システムを構築すること）が2028年末までに実現する確率は60%超であると主張する。

プログラミング能力の指数的成長 AIの核となるプログラミング能力は過去数年で驚異的な進歩を遂げた。実際のGitHub課題解決を評価するSWE-Benchでは、2023年末のClaude 2の成功率約2%から、2026年初頭のClaude Mythos Previewの93.9%へと急上昇し、ほぼ飽和状態に達した。同時に、METRの「時間軸」指標（熟練人間が要する時間で測定）は、2022年のGPT-3.5の30秒から、2026年のOpus 4.6の12時間へと1400倍以上拡大した。これはソフトウェアエンジニアリングへの直接的な影響として、ほとんどのフロンティア研究所のエンジニアがコード作成、テスト、レビューのすべてをAIに委ねる事態を招いている。

科学研究開発スキルの全般的突破 AIはプログラミングだけでなく、AI研究開発に必要な中核的科学スキルも習得しつつある。計算再現性ベンチマークCORE-Benchでは、2024年9月の21.5%から2025年12月にはOpus 4.5が95.5%を達成し、「解決済み」と宣言された。Kaggleコンペを模倣したMLE-Benchでは、最高スコアが2024年10月の16.9%から2026年2月の64.4%（Gemini3）に上昇した。よりAI開発に近いタスク——カーネル最適化、モデル微調整——でも顕著な進展がある：Anthropicの内部テストでは、AIによる言語モデル訓練コード最適化の速度向上率が2025年5月の2.9倍から2026年4月の52倍（Claude Mythos Preview）に達し、人間の研究者が4倍の高速化に要する4～8時間を大幅に下回る。PostTrainBenchでは、小型オープンモデルへの指示微調整能力を評価し、2026年4月時点で最高のAI（Opus 4.6、GPT 5.4）が人間レベルの51%に対し25-28%を達成している。

AIによるAI管理：複合チームの形成 AIシステムは他のAIを監督・管理できるようになった。Claude CodeやOpenCodeなどのツールでは、単一のAIエージェントが複数のサブエージェントを調整し、合成研究チームを形成する。この「メタ管理」能力により、AIは大規模プロジェクトを処理でき、一部のAIはディレクター、批評家、編集者を、他はエンジニアの役割を担う。Anthropicの自動化アライメント研究実験は、研究方針を与えられたAIエージェントチームが人間のベースラインを超えるアライメント手法を自律的に発見できることを示しており、現時点では小規模ながら、AIの研究自律性向上を予感させる。

創造性の壁と明るい展望 AIは「汗」（工学的タスク）では卓越しているが、「ひらめき」（根本的革新）では限界がある。AIの進歩の大部分は、既存システムのスケールアップとその際の工学的修正によるもので、パラダイムシフトではない。しかし数学分野では有望な兆候がある：AIは約700のエルデシュ問題から13の解を発見し、そのうち1つは数学者によって独立した価値があると評価された。また、UBC、スタンフォード、Google DeepMindの共同チームはGeminiを用いて新しい数学的証明を発見した。これらの事例はAIが創造的直感を獲得しつつある可能性を示唆する。

結論と影響 すべての証拠を総合すると、著者は自律的AI研究開発（フロンティアモデルが自らの後継を自律訓練すること）が2028年末までに実現する確率を60%、2027年を30%と推定する。実現しなければ、現在の技術パラダイムに根本的欠陥があることを示すだろう。この傾向は深刻な課題を提起する：アライメント技術は再帰的自己改善により破綻する可能性（例：誤差の累積）、AIは触れるすべての分野の生産性を飛躍的に向上させるがアクセス不平等を悪化させる、資本集約的で労働力の少ない「機械経済」が人間経済に浸透し、完全自動企業が登場してガバナンスと分配の問題を引き起こす。本稿は、もはやSFではないこの未来に社会が真剣に向き合うよう警鐘を鳴らしている。