チャットボットの黄昏
AIの能力は超指数関数的に加速しており、フロンティアモデルとオープンウェイトモデルの両方が急速に向上している。AIの使用方法はチャットボットからエージェントへと移行し、ユーザーの専門知識が職業よりも重要になっている。指数関数的な成長は不安定性を生み出し、当面安定することはないだろう。
AIの分野が加速していると感じるなら、おそらくそれは正しい。米国の主要AIラボはこれまで以上に速いペースでより優れたモデルをリリースしている(ただし、政府の介入により、最も強力な2つのモデル、Claude FableとGPT-5.6へのアクセスは止められている)。
しかし、リリースのタイミングだけではない。能力向上も加速しているという証拠がある(フロンティアは依然として凸凹で、AIは多くの分野で弱いままではあるが)。これは特に、AIが実際の仕事をこなす能力を見ると明らかだ。AIがどれだけの人間の仕事をできるかを測定しようとする優れた評価がいくつかある。最も有名な2つはMETRと英国政府公式AIセキュリティ研究所によるもので、1回のプロンプトでAIがどれだけの人間のプログラマー時間に相当する作業ができるかを推定している。GDPvalは様々な分野の人間専門家とAIのパフォーマンスを専門審査員で比較している。これらはすべて超指数関数的な割合で増加している。
同様の実験を行っている別の組織Epochは最近、Opus 4.7が14時間自律的に作業し、人間のエンジニアリング作業で2~17週間かかるソフトウェアパッケージを構築したことを発見した(トークンコストは251ドル)。繰り返すが、AIシステムはすべてのテストに合格できるわけではなく、常に安価で動作するわけでもないが、非常に急速に改善している。私自身の実験では、Fableが9時間自律的に作業し、チームで1週間以上かかる非常に複雑なソフトウェアプロジェクトを実行できることを発見した。
これまで、私は最も「知能」の高いフロンティアモデルに焦点を当ててきた。これらはAnthropic、OpenAI、Googleの3社によって製造されている(Googleは久しく新しいモデルをリリースしていないが)。しかし、もう一つのAIモデル群があり、通常フロンティアより6~12ヶ月遅れており、すべて中国発である。これらはオープンウェイトモデルであり、リリース後誰でも使用・変更できる(対照的にフロンティアモデルはプロプライエタリである)。そのため、運用コストが非常に安い。これらも指数関数的改善曲線を上っているが、米国モデルには遅れを取っている。これはAA-Briefcaseと呼ばれるテストでのAIパフォーマンスのグラフで確認できる。このテストは複雑な数週間のコンサルティング業務をシミュレートし、AIは様々な分析を実行する必要がある。オープンウェイトモデルは独自の指数曲線上にあり、米国のクローズドモデルに遅れている。
しかし、抽象的なグラフだけでは限界があり、フロンティアの凸凹(そしてオープンウェイトモデルは非常に印象的ではあるが、ベンチマークが示すほど常に優れているわけではないという事実)を隠す可能性がある。本当の洞察を得るには、様々なユースケースでAIを試し、自分に関係する分野でどれだけ優れているかを厳密に評価する必要がある。楽しい例として、私はAIが時間とともに進化する港のインタラクティブシミュレーションを構築するテストを作成した。全ての結果はこちらで試すことができる。これは、モデルがデザイン、スタイル的アプローチ、さらには判断力などの分野でどれだけ異なるかについて興味深い視点を提供すると思う。システムがより長いタスクを実行するにつれて、これらのベンチマークが難しい要素がより重要になる。
AIの使用方法の変化
AIがより長いタスクを実行できるようになるにつれて、人々のAI使用方法は変化している。最近まで、AIの主な使用方法は「共同知能」としてであった。AIに何かをするよう依頼し、結果を確認し、次のステップを依頼する。注意深いプロンプティングと人間の注意により、複雑で長期的なタスクにAIを導くことができた。
このアプローチは今でも一般的で有用だが、価値のある仕事にAIを使用する方法としては次第に主流ではなくなっている。長時間稼働し、スマートで自己修正するAIシステムは、常に人間の介入を必要とせず、異なる作業方法を必要とする(これは私の近著『Co-Existence』のテーマでもある)。また、チャットボットとは異なり、エージェントには追加の仕組みが付属している:AIにツールへのアクセスと行動環境を提供するハーネス、そしてClaude CodeやOpenAIのCodexのようにエージェント向けに構築されたアプリである。その結果、AIモデルの既に向上している能力は、優れたハーネスやアプリによってさらに向上する可能性がある。
つまり、仕事はチャットボットと協力するよりも、エージェントに作業を割り当てることが増えている。OpenAIとアカデミック経済学者による共同研究は、これが自社組織内でどれだけ急速に起こっているかを示している。重要なのは、コード作成者だけがエージェントを使用しているわけではないことだ。法務、人事、その他の非技術部門もほぼ同じ割合でエージェントを採用している。OpenAIは、仕事の他の部分で何が起こるかを示す炭鉱のカナリアのようなものかもしれない。
OpenAIでの仕事はますます、AIを管理するように見えてきている。OpenAIの従業員の4分の1は、毎週少なくとも4つのエージェントを同時に実行している。そして、コード作成が専用のハーネスやアプリでAIによって行われるにつれて、他の役割も一種のコード作成者になり始めている。そして、彼らはそれを得意としている。Claude Codeユーザーに関する別の研究では、ソフトウェアエンジニアがコード作成タスクでClaude Codeを実際に使用した際の成功率は、他の職業と同程度であった。
実際に重要だったのはユーザーの職業ではなく、専門知識だった。その分野での経験が多ければ多いほど、Claude Codeをその分野で使用する成功率が高かった。そしてさらに興味深いことに、各プロンプトからClaudeから得られる有用な出力も多かった。
私たちは、非専門家がチャットボットを使用してギャップを埋める世界から、専門家がエージェントを使用して仕事を成し遂げる世界へと移行している。そしてエージェントを最も効果的に使用する方法は、自分自身をマネージャーと考えることである。
ある瞬間
指数曲線上にあるということは、一定の時間枠内での各変化が前回よりも大きいことを意味する。あなたの組織が2025年の冬以前にAI計画を書いたとすれば、それは数時間の作業をかなり高いエラー率でこなせるシステムを記述していただろう。数ヶ月後には、1回のプロンプトで16時間以上の作業を得ることができる。これが、AIがグラフ上の曲線であるにもかかわらず、絶えず飛躍しているように感じられる理由である。能力の着実な倍増を一連の衝撃として経験しているのだ。我々は指数関数的な変化を内側から感じるのが非常に苦手であり、現在その中にいる。
これは、通常の誇大広告の話よりも、AIをめぐる混乱をよく説明していると思う。AIが本当のサイバーセキュリティ脅威になることはできないが、突然なり得るようになり、政府の最高レベルで突然の即席の政策変更を引き起こす。市場はAIがビジネスモデルを脅かす可能性を割り引くが、突然それが可能になり、株価の大幅な変動を引き起こす。これらの揺れは、未成熟な分野がいつか安定する兆候として読まれる。私はそれがすぐに安定するとは思わない。この不安定性は、人間の速度(あるいは委員会というさらに遅い速度)で動く組織が、非常に人間的でない能力曲線を追跡しようとするときに起こることである。そして、我々が何らかの指数曲線上にいる限り、そしてそれが続く限り、ギャップは広がる一方である。