2026-06-01 17:14 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

為什麼大語言模型在電子遊戲中表現如此糟糕？

大語言模型（LLM）在編程等任務上表現出色，但在電子遊戲中卻舉步維艱。紐約大學遊戲創新實驗室主任Julian Togelius指出，LLM缺乏空間推理能力，且遊戲多樣性遠超其他領域，導致通用遊戲AI難以實現。

大語言模型（LLM）在多個領域取得了飛速進步，但在電子遊戲面前卻顯得無能為力。儘管少數模型如Gemini 2.5 Pro曾在《寶可夢藍》中通關，但這類例外反而印證了普遍規律：這些AI通關速度遠慢於人類玩家，頻繁出現怪異重複的錯誤，且需依賴定製軟件與遊戲交互。

紐約大學遊戲創新實驗室主任、AI遊戲測試公司Modl.ai聯合創始人Julian Togelius近期發表論文，探討了LLM在遊戲領域侷限性的深層含義。他在接受IEEE Spectrum採訪時表示，這一現象揭示了當前AI技術的根本缺陷。

Togelius將編程比作一個“行為良好的遊戲”：任務清晰、反饋即時——代碼需通過編譯、運行和測試，失敗原因也易於追溯。他認為，這種結構化的過程正是LLM擅長的領域。然而，視頻遊戲則截然不同：每款遊戲擁有獨特的機制、輸入表示和空間邏輯，而LLM的訓練數據中恰恰缺乏這些要素。

“這不僅是LLM的問題，”Togelius強調，“我們根本沒有通用遊戲AI。”他指出，即便AlphaZero能同時玩圍棋和國際象棋，也需要針對每種遊戲重新訓練，且這些遊戲本質上相似。大多數遊戲之間的差異遠大於共同點。此外，數據也是一大瓶頸：成功的AI遊戲案例（如《我的世界》）依賴於數百萬小時的攻略數據，而冷門遊戲則缺乏此類資源。

對於遊戲基準測試的缺失，Togelius坦言，他曾主導的通用視頻遊戲AI競賽歷經七年，最終因進展停滯而終止——智能體在某類遊戲上提升的同時，另一類遊戲的表現反而下降。如今，LLM甚至無法超越簡單的搜索算法。

矛盾的是，LLM能通過一次提示生成可玩的遊戲代碼（如類似《小行星》的典型作品），但無法自主測試或迭代優化。Togelius解釋道：“遊戲開發是迭代過程——編寫、測試、調整手感。LLM無法做到這一點。”這同樣適用於其他軟件設計：模型能創建按鈕界面，卻不知如何有效使用它。

面對英偉達、谷歌等公司利用遊戲環境訓練AI的設想，Togelius持保留態度。他認為遊戲比現實更“硬”，因為現實世界具有統一的物理規律（如自動駕駛場景），而遊戲種類千變萬化。人們常困惑於LLM能撰寫量子物理論文卻無法玩《光暈》或《太空侵略者》，但事實上，這兩款遊戲的差異遠大於兩篇學術論文之間的區別。