ロッシー自己改善:AIの進歩は実在するが、急激な離陸には至らない
本稿は、再帰的自己改善(RSI)と実際の「ロッシー自己改善」(LSI)の違いを考察する。自動化可能な研究の狭さ、並列エージェントの収穫逓減、リソースのボトルネックなどの摩擦により、AIの進歩は指数関数的ではなく線形的であると主張する。
AI業界では、「高速離陸」「シンギュラリティ」「再帰的自己改善」(RSI)が頻繁に議論されている。これらの概念には一定の真実が含まれている。少数の研究所が寡占状態を形成し、最先端のモデルと資源を掌握している。AIツールはエンジニアリングや研究職を急速に変革している。しかし、本稿は、本当に起こっているのは「ロッシー自己改善」(LSI)であると主張する。つまり、モデルは開発ループの核となるが、摩擦がRSIの核心的仮定を崩す。
第一に、自動化可能な研究は狭すぎる。言語モデルは局所的なタスク(テスト損失の低減など)の最適化に優れているが、AI研究は複数の指標を同時に扱う必要がある。トップ研究者の真髄は、直感と複雑性の管理であり、単なる最適化ではない。AutoMLの誇大広告は研究職を変えなかった。PostTrainBenchのようなベンチマークも、単一指標の最適化を測るに過ぎず、複数のアイデアを統合する能力は評価できない。
第二に、並列エージェントの収穫逓減。データセンターに1万台のエージェントがあっても、それらを一つの問題に集中させるのはほぼ不可能だ。エージェントは似たような解の分布からサンプリングし、人間の監督に制約される。Amdahlの法則が示すように、並列化可能な部分には限界がある。研究者が3〜4のエージェントを活用するのは大きな利得だが、30〜40になると管理が難しく、300〜400に至っては不可能に近い。
第三に、リソースのボトルネックと組織政治。AI企業は資本を調達し、計算資源を収益に変換し、研究に巨額を投じる。この中で、誰が資源を得て何に賭けるかという政治的決定が常に存在する。研究リーダーシップはAIや研究者の上位にあり、人間が資源のボトルネックとなる。たとえモデルが改善されても、この摩擦は消えない。
結論として、AIは開発ループの中心になりつつあり、興奮と警戒の両方に値する。モデルは自己改善を実行しているが、アプローチを変革しているわけではない。私たちは研究手法とツールに投じる計算資源を拡大している。そこには収穫逓減が存在する。エージェントは自律的な存在となりつつあるが、天才と5歳児の間のような存在だ。このロッシー自己改善の時代は数年続くが、高速離陸には不十分である。