大規模言語モデルはなぜビデオゲームがこんなに苦手なのか?
大規模言語モデル(LLM)はコーディングでは優れた性能を示す一方、ビデオゲームでは苦戦している。NYUのJulian Togelius氏は、LLMが空間推論を欠き、ゲームの多様性が汎化を妨げていると指摘し、現在のAIの根本的な限界を明らかにした。
大規模言語モデル(LLM)は多くの分野で急速な進歩を遂げているが、ビデオゲームの前では無力だ。Gemini 2.5 Proが『ポケットモンスター 青』をクリアした例外もあるが、それはむしろ一般的な傾向を証明している。AIのクリア速度は人間よりはるかに遅く、奇妙で反復的なミスを犯し、ゲームとの対話にはカスタムソフトウェアが必要だった。
ニューヨーク大学ゲームイノベーションラボ所長でAIゲームテスト企業Modl.aiの共同創業者であるJulian Togelius氏は、最近の論文でLLMのゲームにおける限界の意味を探求した。同氏はIEEE Spectrumの取材に対し、この現象が2026年のAI技術の根本的な欠陥を浮き彫りにしていると語った。
Togelius氏はコーディングを「行儀の良いゲーム」と例える。タスクは明確で、コードはコンパイル、実行、テストに合格する必要があり、失敗の理由も追跡しやすい。LLMはこのような構造化されたプロセスを得意とする。しかしビデオゲームは全く異なる。各ゲームは独自のメカニズム、入力表現、空間ロジックを持ち、LLMの訓練データにはこれらの要素が不足している。
「これはLLMだけの問題ではない」とTogelius氏は強調する。「汎用ゲームAIは存在しない」。AlphaZeroでさえ、囲碁とチェスのそれぞれに再訓練が必要であり、これらは類似したゲームである。ほとんどのゲームは互いに大きく異なり、データも不足している。例えば、『マインクラフト』のような成功例は数百万時間の攻略データに依存しているが、マイナーなゲームにはそのようなリソースがない。
ゲームベンチマークの欠如について、Togelius氏は自身が主導した汎用ビデオゲームAIコンペティションが7年後に停滞したことを明かした。エージェントは一部のゲームで改善する一方、他のゲームでは悪化した。現在、LLMは単純な探索アルゴリズムにすら及ばない。
皮肉なことに、LLMは一回のプロンプトでプレイ可能なゲームコード(例えば『アステロイド』風の作品)を生成できるが、自らテストしたり、反復的に改善したりすることはできない。「ゲーム開発は反復プロセスだ。書いて、テストして、調整する。LLMにはそれができない」とTogelius氏は説明する。これは他のソフトウェア設計にも当てはまる。
NvidiaやGoogleがゲーム環境をAI訓練に利用する構想について、Togelius氏は慎重な姿勢を示す。ゲームは現実世界よりも「難しい」と同氏は指摘する。現実世界の物理法則はどこでも同じだが、ゲームの多様性は計り知れない。人々はLLMが量子物理学の論文を書けるのに『Halo』や『スペースインベーダー』をプレイできないことに困惑するが、それらのゲームの違いは学術論文間の違いよりもはるかに大きい。