2025-06-04 23:00 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

AGIはマルチモーダルではない

本稿では、マルチモーダルなスケーリングによって汎用人工知能（AGI）を実現しようとするアプローチは失敗すると論じる。真の知能には身体化された理解と物理世界との相互作用が必要であり、現在の大規模言語モデル（LLM）やマルチモーダルモデルはそれを欠いている。著者は、LLMが世界モデルを学習しているという仮定を批判し、真のAGIはモダリティを貼り合わせたものではなく、相互作用と身体化に基づくプロセスから構築されるべきだと提案する。

ソースThe Gradient著者: Benjamin A. Spiegel

記事インテリジェンス

エンジニア上級

要点

LLMは真の世界モデルを学習しておらず、次トークン予測のためのヒューリスティックルールを記憶しているに過ぎない。
マルチモーダルアプローチは異なるモダリティを人為的に接合するため、一貫した概念を形成できず、知能の身体化された性質を無視している。
真のAGIは物理世界の問題（例：車の修理、料理）を解決できなければならず、物理的世界モデルに基づく推論が必要である。
著者は、モダリティを人為的に分割するのではなく、身体化されたインタラクティブな学習パラダイムを採用し、モダリティ固有の処理が自然に出現するようにすべきだと主張する。

重要な理由

このニュースが重要なのは、LLMは真の世界モデルを学習しておらず、次トークン予測のためのヒューリスティックルールを記憶しているに過ぎないためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

近年の生成AIモデルの成功により、一部では汎用人工知能（AGI）が間近に迫っていると考える人もいる。しかし、本稿の著者Benjamin A. Spiegelは、これらのモデルは人間の知能を表面的に模倣しているものの、知能に関する最も基本的な直感に反していると指摘する。これらのモデルが登場したのは、知能の問題に対する思慮深い解決策だからではなく、既存のハードウェア上で効果的にスケールしたからに過ぎない。マルチモーダルアプローチはその典型的な例であり、大規模なモジュラーネットワークを複数のモダリティに対して最適化し、全体として汎用的に見えるようにしている。しかしSpiegelは、この戦略は短期的には確実に失敗し、感覚運動推論、運動計画、社会的調整などができる人間レベルのAGIにはつながらないと主張する。

著者はまず、真のAGIには物理世界の理解が必要であり、多くの問題は記号操作に変換できないと論じる。一部では、LLMが次トークン予測を通じて世界モデルを学習しているとの説があるが、実際にはトークン予測のためのヒューリスティックルールを学習している可能性が高い。これにより現実に対する表面的な理解しか得られず、知能に対する誤った印象を与えている。例えば、OthelloGPTは棋譜を予測できるが、学習したルールはすべてのオセロ対局に当てはまるわけではなく、本当の盤面モデルを獲得しているわけではない。

続いて、統語論、意味論、語用論の違いを説明し、LLMは意味や語用の問題を統語論に還元している可能性があると指摘する。人間の言語理解はこれら三つの能力の融合であるが、LLMは統語論的な規則の記憶に頼っており、真の理解には至っていない。例えば、「冷蔵庫がリンゴの中にある」という文は統語的には正しいが、人間は意味的に間違っていると認識する。LLMがこれを学ぶためには、大量のコーパスから特殊な文法規則を記憶する必要があるが、それは真の意味理解とは異なる。

また、マルチモーダルアプローチの問題点として、異なるモダリティを人工的に結合することで、概念の一貫性が損なわれることを挙げる。Suttonの「苦い教訓」は計算資源の活用を説くが、構造を無視したスケール拡大一辺倒のアプローチは、人間の直感がもたらした進歩（CNNやTransformerなど）を軽視している。マルチモーダルモデルはモダリティを共通の潜在空間に符号化するが、「意味」はモダリティ間で非一貫的になる可能性が高い。さらに、現状のモダリティ区分は身体化されたエージェントの観測・行動空間として適切とは言えず、人間の認知は重複する構造によって媒介されている。

最後に、Spiegelは二つの代替案を提示する。一つは、人間の直感や古典的研究を参考に、モダリティを意図的に統合すること。もう一つは、学習を身体化されたインタラクティブなプロセスとして再定義し、異なるモダリティが自然に融合するようにすることである。具体的には、画像、テキスト、動画を同じ知覚システムで処理し、テキスト生成、物体操作、環境探索に同じ行動システムを用いることを提案する。効率性は犠牲になるが、柔軟な認知能力が得られるという。

AGIの最も困難な数学的課題である普遍関数近似器の発見はすでに達成されており、残るは必要な関数の在庫を確認し、それらをどのように配置して一貫した全体とするかという概念的な問題であると結論づけている。

さらに著者は、スケール最大主義がLLMやLVMで成功したのはテキストや画像という自然なデータが存在したからであり、AGIには身体化データが必要だがそれは不足していると指摘する。マルチモーダルモデルはモダリティ間の深い関係を断ち切り、概念形成を難しくしている。また、スケールからの学習は人間の概念構造をコピーするだけで、新しい概念を形成する能力を育まない。真の汎用知能には、経験から新しい概念を形成する柔軟性が不可欠である。

Spiegelは、スケール最大主義が約束するフランケンシュタイン的AGIは実現不可能であり、代わりに身体化されたインタラクティブな学習パラダイムを追求すべきだと結論づけている。