为什么大语言模型在电子游戏中表现如此糟糕?
大语言模型(LLM)在编程等任务上表现出色,但在电子游戏中却举步维艰。纽约大学游戏创新实验室主任Julian Togelius指出,LLM缺乏空间推理能力,且游戏多样性远超其他领域,导致通用游戏AI难以实现。
大语言模型(LLM)在多个领域取得了飞速进步,但在电子游戏面前却显得无能为力。尽管少数模型如Gemini 2.5 Pro曾在《宝可梦蓝》中通关,但这类例外反而印证了普遍规律:这些AI通关速度远慢于人类玩家,频繁出现怪异重复的错误,且需依赖定制软件与游戏交互。
纽约大学游戏创新实验室主任、AI游戏测试公司Modl.ai联合创始人Julian Togelius近期发表论文,探讨了LLM在游戏领域局限性的深层含义。他在接受IEEE Spectrum采访时表示,这一现象揭示了当前AI技术的根本缺陷。
Togelius将编程比作一个“行为良好的游戏”:任务清晰、反馈即时——代码需通过编译、运行和测试,失败原因也易于追溯。他认为,这种结构化的过程正是LLM擅长的领域。然而,视频游戏则截然不同:每款游戏拥有独特的机制、输入表示和空间逻辑,而LLM的训练数据中恰恰缺乏这些要素。
“这不仅是LLM的问题,”Togelius强调,“我们根本没有通用游戏AI。”他指出,即便AlphaZero能同时玩围棋和国际象棋,也需要针对每种游戏重新训练,且这些游戏本质上相似。大多数游戏之间的差异远大于共同点。此外,数据也是一大瓶颈:成功的AI游戏案例(如《我的世界》)依赖于数百万小时的攻略数据,而冷门游戏则缺乏此类资源。
对于游戏基准测试的缺失,Togelius坦言,他曾主导的通用视频游戏AI竞赛历经七年,最终因进展停滞而终止——智能体在某类游戏上提升的同时,另一类游戏的表现反而下降。如今,LLM甚至无法超越简单的搜索算法。
矛盾的是,LLM能通过一次提示生成可玩的游戏代码(如类似《小行星》的典型作品),但无法自主测试或迭代优化。Togelius解释道:“游戏开发是迭代过程——编写、测试、调整手感。LLM无法做到这一点。”这同样适用于其他软件设计:模型能创建按钮界面,却不知如何有效使用它。
面对英伟达、谷歌等公司利用游戏环境训练AI的设想,Togelius持保留态度。他认为游戏比现实更“硬”,因为现实世界具有统一的物理规律(如自动驾驶场景),而游戏种类千变万化。人们常困惑于LLM能撰写量子物理论文却无法玩《光晕》或《太空侵略者》,但事实上,这两款游戏的差异远大于两篇学术论文之间的区别。