AIの進歩は鈍化しているのか?
本稿では、AI能力の進歩が鈍化しているかどうかの議論を分析する。著者らは、モデルスケーリングは終焉しておらず、業界リーダーの予測は信頼できないと指摘。推論時スケーリング(inference scaling)には可能性があるが限界もあり、能力向上と経済的影響の関連は弱く、製品開発と採用が鍵だと論じる。
2023年3月のGPT-4リリース以降、テクノロジー業界ではモデルスケーリングの継続が人工汎用知能(AGI)への道と信じられてきました。しかし1ヶ月前、Information、Reuters、Bloombergの3社が相次いで、OpenAI、Anthropic、Google Geminiという主要AI開発者が次世代モデルで問題に直面していると報じました。かつてスケーリングの最大の提唱者だったイリヤ・スツケバー氏も現在は異なる見解を示しています。「2010年代はスケーリングの時代だったが、今は再び驚きと発見の時代に戻った。誰もが次の一手を探している」と同氏は語りました。
しかし本稿の著者らは、モデルスケーリングの終焉を宣言するのは時期尚早だと主張します。GPT-4クラスのモデルは利用可能なデータのほとんどを消費してしまいましたが、新しいアイデアが試され失敗したという証拠はありません。例えば、マルチモーダルモデルの訓練にYouTube動画(文字起こしではなく実際の動画)を含めることで新たな能力が解放される可能性があります。ただし、それを試せるのはGoogleだけであり、試されたかどうかも不明です。
業界関係者の予測については、彼らが一般の人々よりもはるかに多くの情報を持っているわけではないと指摘します。確かに専有情報はありますが、その優位性はせいぜい数ヶ月です。また、彼らは商業的利益に強く影響されます。スツケバー氏の意見の変化はその典型例で、OpenAI在籍時には資金調達のためにスケーリングを強調していましたが、現在率いるSafe Superintelligence社は少ない資本で競争する必要があるため、データ不足を強調しています。
推論時スケーリング(テスト時計算スケーリング)は現在注目されている手法です。OpenAIのo1やDeepSeek R1などの推論モデルは、回答前に「思考」するよう微調整されています。これはコードや数学のような明確な正解がある問題には有効ですが、文章作成や翻訳のようなタスクでは効果が限定的です。また、性能向上の程度も不明です。OpenAIがAIMEベンチマークで示したグラフは、性能が飽和しつつある可能性を示唆していますが、軸ラベルが省略されています。外部研究者による再現実験では、o1は2000トークン程度までしか思考しないことが示されています。
著者らは、推論時スケーリングには短期的に多くの低い果実が存在すると述べます。現状の推論モデルはエージェントシステムではうまく機能しませんが、これはプロンプティングの違いや環境フィードバックによる強化学習を受けていないためであり、比較的簡単に解決できる問題です。しかし長期的には、推論時スケーリングがモデルスケーリングのような継続的進歩をもたらすかは不透明です。モデルスケーリングはデータと計算を増やすだけでよかったのに対し、推論時スケーリングはアルゴリズムの進歩に依存し、適用可能な領域も限られています。
さらに重要なのは、AI能力の向上と実際の社会的・経済的影響の間の関連が非常に弱いことです。製品開発は能力向上に大きく遅れており、既存の能力さえも十分に活用されていません。例えば、AIは強力なコーディング能力を持つにもかかわらず、ChatGPTでPythonコードを実行する方法は複雑で混乱を招きます。信頼性のギャップやユーザーインターフェースの問題が解決されるには、さらに10年かかるかもしれません。AI企業は製品開発に十分な注意を払っておらず、ようやくその重要性に気づき始めたところです。
結論として、モデルスケーリングは終わったかもしれないし、そうでないかもしれません。しかし、その終焉はポジティブな側面ももたらします。AIの進歩が再びアイデアに依存するようになり、大企業、スタートアップ、研究者が比較的公平な競争ができるようになります。そして、業界関係者の予測を盲信する時代は終わりました。彼らも私たちと同じように未来を推測しているに過ぎず、しかも自己利益に影響されています。AIの社会的影響についての議論では、技術的な能力よりも製品開発と採用のペースに注目すべきです。