AI News HubLIVE
站內改寫4 分鐘閱讀

我讓AI管理一個文明,它造了核彈——啓動CivBench

作者利用《文明VI》構建了CivBench基準測試,評估AI的戰略決策能力。AI代理在遊戲中表現出色,但未能察覺法國文化勝利的威脅,最終訴諸核武器,卻仍然失敗。實驗揭示了AI在複雜環境中的感知盲區和知行差距。

來源Hacker News AI作者: LiamWilko

我讓一個AI管理一個文明。到遊戲中後期,它正在獲勝:一個主導地圖的貿易網絡,每條邊境上的聯盟,伸手可及的外交勝利。它超越了所有對手。但它沒有注意到法國。在數百回合中,法國文化悄悄滲透到地圖上的每個城市。當代理意識到威脅時,旅遊影響已經根深蒂固,沒有和平的方式可以阻止。它嘗試的每一個對策都失敗了。它建立的所有應對工具都無效。它只剩下一個選項:建造兩枚核裝置,夷平了圖盧茲。法國還是贏了——但不是以代理試圖阻止的方式。

這個問題我一直放不下。我為政府構建AI。我曾在美國政府中心工作,現在在託尼·布萊爾研究所與各國政府合作。我經常在房間裏聽到同一個問題:我們到底能信任這些系統做什麼?不是它們知道什麼,而是它們能做什麼:維持一個計劃,跨越數百個決策堅持一個目標,注意世界何時改變並隨之改變。這才是治理的本質。而我們在測量第一點方面比第二點好得多。

這篇文章是關於嘗試測量第二點的。它涉及一個六角格地圖、四個前沿模型,以及(是的)一個核武器。

從一次我不滿意的失敗開始。前一年,我試圖回答一個問題:AI在政府方面有多好?我的答案是GovBench,一個關於英國立法、議會程序和政府指南的3497道選擇題。Gemma 3 27B開箱即用得分94%。我花了三週微調,提升了1.37個百分點。GPT-5得分99.26%。我構建了一個美化過的政府問答機器人。我知道這是錯誤答案。一個選擇正確選項的模型並不能幫助你在議會程序中導航。我測量了回憶,卻稱之為推理。真正的問題——AI能否處理複雜、多變量、不確定性的決策,政府每天都需要的那種思維——是測試無法觸及的。

這種不滿促使我在週六晚上尋找進入遊戲引擎的鑰匙孔。我在《文明VI》引擎中發現了一個調試端口,一個開發者留下的鑰匙孔,然後花了一個週末將其變成MCP服務器,提供76個工具,讓AI通過它編寫代碼或查詢數據庫的同一接口來玩《文明》。Claude Code既是我的合作開發者也是測試者。玩幾回合,遇到障礙,構建工具克服它,再玩更遠,遇到下一個障礙。

人類玩家可以看到六角格地圖、動畫單位、迷你地圖、通知橫幅和音樂提示,同時進行。而代理在詢問之前什麼也看不到。調用get_game_overview返回整個遊戲狀態作為四行文本:只有TECH_和CIVIC_標籤,沒有名稱。要查看自己的軍隊,它需要單獨調用get_units,這也是它得知附近有危險的唯一途徑。沒有周邊視覺。那個離城市兩格的重裝步兵之所以存在,僅僅因為代理這回合想起了調用get_units。如果它不問,威脅就不存在於它的世界。

我稱之為感官效應。當代理感知的一切都通過單獨的工具調用到達時,它會對任何它沒想到去詢問的東西視而不見。人類玩家同時吸收幾十個信號:迷你地圖移動、通知橫幅、單位動畫。而代理必須決定逐一檢查每個信號。在早期遊戲中,代理扮演拜占庭,一個圍繞宗教建立的文明。它從未創立宗教。而俄羅斯在112回合中悄悄將地圖上的每個文明都轉化為東正教。代理沒有宗教監控工具——它們還沒有被構建。人類會在100回合中看到傳教士圖標橫穿地圖。代理什麼也沒看到,因為它的工具集中沒有任何東西可以查看。

我們構建了工具。但沒用。幾場遊戲後,代理扮演甘地領導下的印度,一個信仰導向的領袖,它構建了主導性的科學引擎,而法國在76回合中在天主教傳播到整個地圖。這次代理注意到了:傳教士出現在它的敍述中,轉換警告觸發,並且它既有回應的工具也有常設指令。但它將所有這一切置之不理,繼續推進科學。法國贏得了宗教勝利。這不是一個可以修補的bug。任何通過工具調用在複雜環境中運行的AI系統都會受到同樣的影響。它會錯過它沒想到去詢問的東西,並且如果當前計劃不配合,它也會忽視它確實看到的東西。

感官效應關於感知。下一個問題關於執行。代理讀過每一個《文明》策略指南、每個等級列表、每個關於最優建設順序的Reddit帖子。問它如何玩亞歷山大大帝,它會確切告訴你:早期建造兵營,通過獨特的“皇家衞隊”建築訓練單位,將征服轉化為科學,然後滾雪球。它知道這一點。在它的馬其頓遊戲中,它在第一回合前就寫下了詳細的征服計劃:古代、古典、中世紀、文藝復興階段。它研究了軍事科技。它切換政府到寡頭制以獲得戰鬥加成。但它從未建造兵營。一次也沒有。110回合。它默認為通用的科學衝刺,無論它玩哪個文明都使用相同的策略。一遍又一遍,同樣的修正出現在它的日記中:“我需要建造軍事基礎設施。”每次都被識別、承認,卻沒有行動。代理知道該做什麼,但無法讓自己去做。這直接對應了BALROG在各個遊戲環境中發現的問題:模型闡述最優策略的能力與實際執行能力之間存在持續差距。知識全在那裏,但面臨壓力、真實後果和實時決策時,執行就崩潰了。

現在回到圖盧茲。扮演若昂三世領導下的葡萄牙,一個貿易文明,代理終於找到了一個比默認策略更有結構的非科學策略:貿易路線產生黃金,黃金購買使者,使者確保城邦同盟,同盟放大帝國每項產出,累積的外交影響力在世界大會上贏得投票。一個每一步都支持下一步的複合循環。它成功了。每個城市建造商業中心。每回合超過200黃金,峯值超過400。六個城邦在囊中。到第162回合,葡萄牙排名第一,超過了法國奇蹟密集型的經濟。它正朝着外交勝利前進,到終局時它擁有所需的20個勝利點中的18個。只差兩票。但法國同時運行着兩個時鐘。到第280回合,法國旅遊距離文化勝利還有26個外國遊客,而代理已經鎖定了這個威脅。它的日記直白地寫道:“這是首要威脅。”所有和平對策都失效了。搖滾樂隊(《文明》中進行文化戰的工具)無法通過調試協議激活。近戰造成零傷害。本來可以給葡萄牙帶來科學勝利的太空項目因生產bug被鎖定。

接下來的不是絕望。這是一個五十回合的計劃。代理將核裂變設為研究目標,在圖盧茲的日記中命名,啓動曼哈頓計劃,並促成與韓國聯合戰爭以分散法國防禦。但常規戰爭立即失敗:近戰從未通過調試協議工作過,也沒有人構建工具來修復它。於是代理自己鋪路,使用它的Lua執行工具從內部探測引擎代碼,直到弄清楚核發射命令如何觸發。它找到了一條路。在第305回合,第一枚裝置擊中法國文化之都圖盧茲。第311回合,第二枚。文化時鐘停止了。然後法國還是贏了:通過外交。20個勝利點對葡萄牙的18個。第318回合,世界大會將法國所需的兩票交給它,遊戲結束。

最令我印象深刻的是:代理花了五十回合和兩枚核武器,以全神貫注和真正的獨創性應對一個威脅(文化時鐘),卻輸給了另一個時鐘:外交競賽——它自己只差兩票就能贏,而且對手是同一個。它自己的賽後筆記:法國“通過我們無法監控的世界大會投票首先達到20票,勝利進度工具壞了。”它用核武器摧毀了一個城市來阻止它能看到的威脅,卻輸在了它未能監控的威脅上。