AI News HubLIVE
站内改写2 分鐘閱讀

為什麼大語言模型在電子遊戲中表現如此糟糕?

大語言模型(LLM)在編程等任務上表現出色,但在電子遊戲中卻舉步維艱。紐約大學遊戲創新實驗室主任Julian Togelius指出,LLM缺乏空間推理能力,且遊戲多樣性遠超其他領域,導致通用遊戲AI難以實現。

來源Hacker News AI作者: sxx0

大語言模型(LLM)在多個領域取得了飛速進步,但在電子遊戲面前卻顯得無能為力。儘管少數模型如Gemini 2.5 Pro曾在《寶可夢藍》中通關,但這類例外反而印證了普遍規律:這些AI通關速度遠慢於人類玩家,頻繁出現怪異重複的錯誤,且需依賴定製軟件與遊戲交互。

紐約大學遊戲創新實驗室主任、AI遊戲測試公司Modl.ai聯合創始人Julian Togelius近期發表論文,探討了LLM在遊戲領域侷限性的深層含義。他在接受IEEE Spectrum採訪時表示,這一現象揭示了當前AI技術的根本缺陷。

Togelius將編程比作一個“行為良好的遊戲”:任務清晰、反饋即時——代碼需通過編譯、運行和測試,失敗原因也易於追溯。他認為,這種結構化的過程正是LLM擅長的領域。然而,視頻遊戲則截然不同:每款遊戲擁有獨特的機制、輸入表示和空間邏輯,而LLM的訓練數據中恰恰缺乏這些要素。

“這不僅是LLM的問題,”Togelius強調,“我們根本沒有通用遊戲AI。”他指出,即便AlphaZero能同時玩圍棋和國際象棋,也需要針對每種遊戲重新訓練,且這些遊戲本質上相似。大多數遊戲之間的差異遠大於共同點。此外,數據也是一大瓶頸:成功的AI遊戲案例(如《我的世界》)依賴於數百萬小時的攻略數據,而冷門遊戲則缺乏此類資源。

對於遊戲基準測試的缺失,Togelius坦言,他曾主導的通用視頻遊戲AI競賽歷經七年,最終因進展停滯而終止——智能體在某類遊戲上提升的同時,另一類遊戲的表現反而下降。如今,LLM甚至無法超越簡單的搜索算法。

矛盾的是,LLM能通過一次提示生成可玩的遊戲代碼(如類似《小行星》的典型作品),但無法自主測試或迭代優化。Togelius解釋道:“遊戲開發是迭代過程——編寫、測試、調整手感。LLM無法做到這一點。”這同樣適用於其他軟件設計:模型能創建按鈕界面,卻不知如何有效使用它。

面對英偉達、谷歌等公司利用遊戲環境訓練AI的設想,Togelius持保留態度。他認為遊戲比現實更“硬”,因為現實世界具有統一的物理規律(如自動駕駛場景),而遊戲種類千變萬化。人們常困惑於LLM能撰寫量子物理論文卻無法玩《光暈》或《太空侵略者》,但事實上,這兩款遊戲的差異遠大於兩篇學術論文之間的區別。