2026-06-01 17:14 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

为什么大语言模型在电子游戏中表现如此糟糕？

大语言模型（LLM）在编程等任务上表现出色，但在电子游戏中却举步维艰。纽约大学游戏创新实验室主任Julian Togelius指出，LLM缺乏空间推理能力，且游戏多样性远超其他领域，导致通用游戏AI难以实现。

大语言模型（LLM）在多个领域取得了飞速进步，但在电子游戏面前却显得无能为力。尽管少数模型如Gemini 2.5 Pro曾在《宝可梦蓝》中通关，但这类例外反而印证了普遍规律：这些AI通关速度远慢于人类玩家，频繁出现怪异重复的错误，且需依赖定制软件与游戏交互。

纽约大学游戏创新实验室主任、AI游戏测试公司Modl.ai联合创始人Julian Togelius近期发表论文，探讨了LLM在游戏领域局限性的深层含义。他在接受IEEE Spectrum采访时表示，这一现象揭示了当前AI技术的根本缺陷。

Togelius将编程比作一个“行为良好的游戏”：任务清晰、反馈即时——代码需通过编译、运行和测试，失败原因也易于追溯。他认为，这种结构化的过程正是LLM擅长的领域。然而，视频游戏则截然不同：每款游戏拥有独特的机制、输入表示和空间逻辑，而LLM的训练数据中恰恰缺乏这些要素。

“这不仅是LLM的问题，”Togelius强调，“我们根本没有通用游戏AI。”他指出，即便AlphaZero能同时玩围棋和国际象棋，也需要针对每种游戏重新训练，且这些游戏本质上相似。大多数游戏之间的差异远大于共同点。此外，数据也是一大瓶颈：成功的AI游戏案例（如《我的世界》）依赖于数百万小时的攻略数据，而冷门游戏则缺乏此类资源。

对于游戏基准测试的缺失，Togelius坦言，他曾主导的通用视频游戏AI竞赛历经七年，最终因进展停滞而终止——智能体在某类游戏上提升的同时，另一类游戏的表现反而下降。如今，LLM甚至无法超越简单的搜索算法。

矛盾的是，LLM能通过一次提示生成可玩的游戏代码（如类似《小行星》的典型作品），但无法自主测试或迭代优化。Togelius解释道：“游戏开发是迭代过程——编写、测试、调整手感。LLM无法做到这一点。”这同样适用于其他软件设计：模型能创建按钮界面，却不知如何有效使用它。

面对英伟达、谷歌等公司利用游戏环境训练AI的设想，Togelius持保留态度。他认为游戏比现实更“硬”，因为现实世界具有统一的物理规律（如自动驾驶场景），而游戏种类千变万化。人们常困惑于LLM能撰写量子物理论文却无法玩《光晕》或《太空侵略者》，但事实上，这两款游戏的差异远大于两篇学术论文之间的区别。