2026-06-01 18:14 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

大規模言語モデルはなぜビデオゲームがこんなに苦手なのか？

大規模言語モデル（LLM）はコーディングでは優れた性能を示す一方、ビデオゲームでは苦戦している。NYUのJulian Togelius氏は、LLMが空間推論を欠き、ゲームの多様性が汎化を妨げていると指摘し、現在のAIの根本的な限界を明らかにした。

ソースHacker News AI著者: sxx0

記事インテリジェンス

エンジニア上級

要点

LLMはビデオゲームで苦戦し、成功例も遅くエラーが多い。
コーディングは「行儀の良いゲーム」でタスクが明確、フィードバックが即時であるのに対し、ビデオゲームは異なる。
ゲームの多様性は現実世界の均一な物理法則とは対照的で、AIの汎化を妨げる。
LLMはプレイ可能なコードを生成できるが、反復テストによるゲーム感覚の調整はできない。

重要な理由

このニュースが重要なのは、LLMはビデオゲームで苦戦し、成功例も遅くエラーが多いためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）は多くの分野で急速な進歩を遂げているが、ビデオゲームの前では無力だ。Gemini 2.5 Proが『ポケットモンスター青』をクリアした例外もあるが、それはむしろ一般的な傾向を証明している。AIのクリア速度は人間よりはるかに遅く、奇妙で反復的なミスを犯し、ゲームとの対話にはカスタムソフトウェアが必要だった。

ニューヨーク大学ゲームイノベーションラボ所長でAIゲームテスト企業Modl.aiの共同創業者であるJulian Togelius氏は、最近の論文でLLMのゲームにおける限界の意味を探求した。同氏はIEEE Spectrumの取材に対し、この現象が2026年のAI技術の根本的な欠陥を浮き彫りにしていると語った。

Togelius氏はコーディングを「行儀の良いゲーム」と例える。タスクは明確で、コードはコンパイル、実行、テストに合格する必要があり、失敗の理由も追跡しやすい。LLMはこのような構造化されたプロセスを得意とする。しかしビデオゲームは全く異なる。各ゲームは独自のメカニズム、入力表現、空間ロジックを持ち、LLMの訓練データにはこれらの要素が不足している。

「これはLLMだけの問題ではない」とTogelius氏は強調する。「汎用ゲームAIは存在しない」。AlphaZeroでさえ、囲碁とチェスのそれぞれに再訓練が必要であり、これらは類似したゲームである。ほとんどのゲームは互いに大きく異なり、データも不足している。例えば、『マインクラフト』のような成功例は数百万時間の攻略データに依存しているが、マイナーなゲームにはそのようなリソースがない。

ゲームベンチマークの欠如について、Togelius氏は自身が主導した汎用ビデオゲームAIコンペティションが7年後に停滞したことを明かした。エージェントは一部のゲームで改善する一方、他のゲームでは悪化した。現在、LLMは単純な探索アルゴリズムにすら及ばない。

皮肉なことに、LLMは一回のプロンプトでプレイ可能なゲームコード（例えば『アステロイド』風の作品）を生成できるが、自らテストしたり、反復的に改善したりすることはできない。「ゲーム開発は反復プロセスだ。書いて、テストして、調整する。LLMにはそれができない」とTogelius氏は説明する。これは他のソフトウェア設計にも当てはまる。

NvidiaやGoogleがゲーム環境をAI訓練に利用する構想について、Togelius氏は慎重な姿勢を示す。ゲームは現実世界よりも「難しい」と同氏は指摘する。現実世界の物理法則はどこでも同じだが、ゲームの多様性は計り知れない。人々はLLMが量子物理学の論文を書けるのに『Halo』や『スペースインベーダー』をプレイできないことに困惑するが、それらのゲームの違いは学術論文間の違いよりもはるかに大きい。