物事の形状
この記事は、AI能力の指数関数的成長と、それが仕事、市場、政策に与える深遠な影響について論じています。Claude CodeやCodexなどのAIエージェントが複雑なタスクを独立して完了できるようになり、「コ・インテリジェンス」から「AIの管理」への移行が起きています。著者は「カワウソテスト」や各種ベンチマークを通じてAIの急速な進歩を示し、その能力は驚異的であるものの、実際の採用はまだ初期段階であると指摘します。StrongDMの過激な「ソフトウェアファクトリー」実験や、市場変動、企業の人員削減、政策対立などAIによる「ローリングディスラプション」を紹介します。最後に、再帰的自己改善(RSI)が変化を加速させる可能性について警告しつつ、現在がAIの未来を形作る重要な窓口であると強調します。
2023年10月、私は「物事の影の形状」について書き、AIが今後数年でどのようなものになるかを推測しました。今や、私たちは「物事」そのものをより明確に見ることができ、それに伴う結果の一部も見えています。最近の記事で議論してきたように、私たちはAIの新たなフェーズに入りました。ChatGPTが登場した後、人間とAIの協働は、私が「コ・インテリジェンス」と呼ぶ形を取り、人間がAIにプロンプトを送り合ってタスクの支援を得るものでした。しかし2025年後半から、Claude Code、OpenAIのCodex、OpenClawなどのAIエージェントのおかげで、新たな時代に入りました。これらのAIシステムは、あなたが仕事を任せれば(時には人間の数時間分の仕事)、数分で妥当で有用な結果を返します。これは、AIと協働するのではなく、AIを管理する時代です。
この新しいAIへのアプローチは、AI能力の急速な指数関数的向上の結果です。つまり、私たちが今どこにいるのか、そしてどこへ向かうのかを理解するには、AIの増大する能力を理解しなければなりません。
指数カーブを駆け上がる
指数関数的な改善は視覚化が難しいため、チャートやグラフではなく、カワウソから始めたいと思います。私のAIに関する執筆をフォローしている方は、私の「カワウソテスト」をご存知でしょう。これは、様々なAI画像モデルに「飛行機の中でWi-Fiを使っているカワウソ」の画像を表示するよう挑戦するものです。以下のように、2022年(ChatGPT発売年)から2025年にかけての進歩は急速かつ顕著でした。
では、2025年4月の画像以降、何が起こったのでしょうか?ほぼ完璧な画像が実現した今、ビデオが新たなフロンティアとなり、同様に指数関数的な進歩を遂げています。その証拠に、TikTokの親会社であるBytedanceの最先端(そしてまだ米国未公開)のAIビデオモデルに、次のプロンプトを与えました:カワウソがEthan Mollickの「カワウソテスト」をどのように見ているかについてのドキュメンタリー(このテストはAIが飛行機に座るカワウソの画像を生成する能力で評価します)。これが最初の結果です。ぜひ音声をオンにしてください:
1箇所の発音ミスを除けば、カワウソが人間のような表情を描かれているところまで、ほぼ完璧です。もちろん、ビデオモデルはクールですが、それが必ずしも有用なエージェント型AIの能力を示すわけではありません。では、AI能力のベンチマークを見ると、同じ指数カーブが見られるでしょうか?
今日最も有名なAI評価であるMETR長タスクグラフでは、確かに同じ傾向が見られます。これは、AIがどれだけの人間の作業を自律的に、ある程度の信頼性をもって完了できるかを測定しようとするものです。これには批判もあり、METR自身も潜在的な問題を指摘しています。しかし、METRのグラフが気に入らなくても、ほとんどのAI能力のグラフは同じような曲線を描いています。
例として、私は4つの難易度が高く多様なAIテストを選び、下の画像に時間経過に伴う進捗をプロットしました。左上は「Google-proof Q&Aベンチマーク」のスコアで、これは知識テストであり、大学院生がGoogleを使用しても自分の専門分野以外では34%、専門分野内で約70%のスコアしか得られませんが、最新のAIは94%を獲得しています。あるいはGDPvalを見ると、業界専門家がAIと経験豊富な人間の複雑タスクでのパフォーマンスを比較し、最新AIは82%のケースでトップクラスの人間と同等かそれ以上に達しています。同じパターンが「Humanity's Last Exam」にも見られます。これは大学教授が作成した非常に難しい問題集で、相当な専門知識を要します。あるいは、AIがパズルを解く能力(ここでパズルを試せます。楽しいですよ!)も使えます。それぞれが同様の急速な能力向上を示し、少なくともテストの最高得点に達するまでは減速の兆しはほとんど見られません。
指数グラフはさておき、これらのテストにはすべて欠点があり、AIは依然として「ぎざぎざ」であり、一部のタスクは高いレベルでこなす一方、他のタスクでは失敗することを認識することが重要です。さらに、テストでこのような素晴らしい能力を示しているにもかかわらず、企業によるAI採用はまだ非常に初期段階にあり、これまでのところ、ほとんどの組織では驚くほどほとんど変化していません。しかし「ほとんどの組織」はすべての組織を意味するわけではありません。AIエージェントの新たな能力を活用する新しい組織化のアプローチが、すでに最初の兆候を見せ始めています。
仕事の根本的変化
数週間前、セキュリティソフトウェア企業StrongDMの3人チームが「ソフトウェアファクトリー」を構築したと発表しました。これはAIエージェントに完全に依存して、人間の関与なしにプロダクションソフトウェアを書き、テストし、出荷する働き方です。このプロセスには2つの(かなり過激な)ルールが含まれています:「コードは人間によって書かれてはならない」および「コードは人間によってレビューされてはならない」。ファクトリーを動かすために、各人間エンジニアは自分の給与に相当する金額をAIトークンに費やすことが期待されており、少なくとも1日1000ドルです。
ファクトリーの基本的なアイデアは、人間が書いた将来の製品ロードマップを取得し、それを製品に変えることです。コーディングエージェントはそのロードマップを使ってソフトウェアを構築し、テストエージェントはシミュレートされた顧客環境(テストエージェントが必要に応じて構築)でソフトウェアを試します。エージェントのグループは互いにフィードバックを提供し、結果がAIを満足させるまでループします。その後、人間が完成品をレビューし、結果は誰も基盤コードに触れたり見たりすることなく顧客に出荷されます。
もちろん、このアプローチを機能させる詳細はたくさんあり、StrongDMチームはその多くを公開しています。また、彼らは賢い外部の観察者を招いてファクトリーの動作を見てもらい、コメントしてもらいました。Simon WillisonとDan Shapiroの記録を読むと、そのアプローチの強みと弱みがよくわかります。しかし、多くの点で、ソフトウェアファクトリーの特定の詳細よりも、働き方に関するこのような過激な実験が今や可能であるだけでなく、おそらく必要であるという事実の方が重要です。AIは組織の運営方法を変えるのに十分なほど優れており、実験は始まったばかりで、モデルが改善し続ける中でさらに進んでいくでしょう。
ローリングディスラプション
実用的なエージェント、ぎざぎざの指数関数的改善、そして仕事の本質を徹底的に実験する能力が組み合わさり、AIの進歩にはローリングで予測不可能な環境が生まれています。AIの能力が閾値を超えると、人々のAIに対する見方を一夜にして変えるような革新的なユースケースが解放されます。同時に、AIを実験する組織はそれを機能させる方法を見つけ出し、新戦略の突然の発表や、企業が最も重視する従業員の種類の大規模なシフトにつながります。さらに、AIが改善し続けるにつれて、より多くの政策立案者がAIガバナンスに関心を持ち、AI企業との対立が生じるでしょう。
これは推測ではありません。なぜなら、私たちはこれをすべて1週間で目撃したからです。2月22日、あまり知られていない金融会社Citrini Researchが、AIの採用が2028年までに多くの既存企業を破壊する可能性があるという架空のシナリオを発表しました。この記事には明らかに荒唐無稽な要素が多く含まれていましたが、ウォール街の神経を刺激し、主要な株式市場の価格変動を引き起こしました。2月26日、金融サービス会社Blockが40%の人員削減を発表し、それはAIによるものであると示唆しました。おそらくAIの役割は大幅に誇張されており、AIは大規模な人員削減の隠れ蓑として使われたのでしょう。そしてその週の締めくくりとして、2月27日、ペンタゴンとAI企業Anthropicの間で、Claudeが政府によってどのように使用されるかのルールを誰が管理すべきかをめぐる非常に公的な対立が発生しました。
多くの点で、これらのケースのそれぞれは最初に見えたものとは異なっていました。Citriniの報告は架空のシナリオであり、Blockの人員削減はAIに関するものではなく、戦争におけるAIをめぐる対立はまだ完全に明確ではない多くの複雑な問題を含んでいました。しかし、私はその一週間が、近い将来がどのように感じられるかをよく示していると思います。AI能力に関する突然の暴露が市場の急速な反応を引き起こす。AIの雇用への影響がますます現実的になる(短期的にその影響が良いか悪いかについては多くの議論があるが)。そして、AI企業と世界中の政策立案との間の絡まりが増す。リスクが高まるにつれ、状況はさらに不安定に感じられるでしょう。
もちろん、事態が落ち着く可能性もあります。もしかするとAIの改善が壁にぶつかり、組織が変化を徐々に吸収し、人々がAIのできることとできないことを学ぶにつれて、ローリングディスラプションがより管理可能になるかもしれません。歴史は、一夜にしてすべてを変えるはずだった技術が、経済を完全に再形成するのに数十年かかった事例で溢れています。
しかし、私はそれに賭けません。
その理由の一つは、AI企業が次に何が起こるかをかなり明確に示しているからです:再帰的自己改善(RSI)。これは、AIシステムがより良いAIシステムを構築するためにますます使われ、上で示した曲線を加速させる可能性のあるフィードバックループを作り出すというアイデアです。1月のダボス会議で、AnthropicのDario Amodeiは、コーディングとAI研究が得意なモデルを作れば、それらを使って次世代のモデルを構築し、ループを加速できると説明しました。彼は、Anthropic内のエンジニアはもはや自分たちでコードをほとんど書いていないと述べました。OpenAIが2月に最新のCodexモデルをリリースした時、同社はそれが「自分自身の創造に重要な役割を果たした最初のモデル」であると述べました。そしてGoogle DeepMindのDemis Hassabisは、同じダボスのパネルで、自己改善ループを閉じることがすべての主要ラボが積極的に取り組んでいることであると認めつつ、まだ欠けている能力と真のリスクがあると警告しました。
これがどこまで進むかはわかりません。RSIは数十年にわたって理論的な概念であり、ラボは計算、データ、あるいはAI研究自体の難しさにおいてボトルネックに直面するかもしれません。また、LLMベースのAIが最終的に天井に達し、それ以上良くならなくなったり、ぎざぎざのフロンティアが決して滑らかにならない可能性もあります。何か確かなことを知っているとは思いませんが、再帰的自己改善がSFではなくなった地点を超えたとも思います。むしろ、それはすべての主要なAI企業のロードマップ上の明確な項目です。もしループが閉じれば、私たちが見てきた指数曲線はさらに急勾配になり、終点は不確かになります。
だからこそ、今日の私たちの位置はこうです:2月のあの一週間の不安定性は、AIの増大する能力が市場、雇用、政府と同時に相互作用し始めた時の感覚のプレビューでした。その不確実性はおそらくさらに広がるでしょう。しかし不確実性は無力さと同じではありません。テクノロジーがこれほど強力で不安定な時、個人や組織が今行う選択はより重要です。私たちは今や物事の形状を見ることができますが、それでもなお物事そのものと、それが私たち全員にとって何を意味するかに影響を与えることができます。職場、学校、政府でAIがどのように使われるかについてのルールやロールモデルが明らかに不足しています。それは問題ですが、同時に、今まさにAIの良い使い方を見つけているすべての組織が、他のすべての人にとって先例を築いていることを意味します。物事を形作る窓は長くは続かないかもしれませんが、今ここにあります。