2026-06-22 06:16 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

我讓AI管理一個文明，它造了核彈——啓動CivBench

作者利用《文明VI》構建了CivBench基準測試，評估AI的戰略決策能力。AI代理在遊戲中表現出色，但未能察覺法國文化勝利的威脅，最終訴諸核武器，卻仍然失敗。實驗揭示了AI在複雜環境中的感知盲區和知行差距。

來源Hacker News AI作者: LiamWilko

我讓一個AI管理一個文明。到遊戲中後期，它正在獲勝：一個主導地圖的貿易網絡，每條邊境上的聯盟，伸手可及的外交勝利。它超越了所有對手。但它沒有注意到法國。在數百回合中，法國文化悄悄滲透到地圖上的每個城市。當代理意識到威脅時，旅遊影響已經根深蒂固，沒有和平的方式可以阻止。它嘗試的每一個對策都失敗了。它建立的所有應對工具都無效。它只剩下一個選項：建造兩枚核裝置，夷平了圖盧茲。法國還是贏了——但不是以代理試圖阻止的方式。

這個問題我一直放不下。我為政府構建AI。我曾在美國政府中心工作，現在在託尼·布萊爾研究所與各國政府合作。我經常在房間裏聽到同一個問題：我們到底能信任這些系統做什麼？不是它們知道什麼，而是它們能做什麼：維持一個計劃，跨越數百個決策堅持一個目標，注意世界何時改變並隨之改變。這才是治理的本質。而我們在測量第一點方面比第二點好得多。

這篇文章是關於嘗試測量第二點的。它涉及一個六角格地圖、四個前沿模型，以及（是的）一個核武器。

從一次我不滿意的失敗開始。前一年，我試圖回答一個問題：AI在政府方面有多好？我的答案是GovBench，一個關於英國立法、議會程序和政府指南的3497道選擇題。Gemma 3 27B開箱即用得分94%。我花了三週微調，提升了1.37個百分點。GPT-5得分99.26%。我構建了一個美化過的政府問答機器人。我知道這是錯誤答案。一個選擇正確選項的模型並不能幫助你在議會程序中導航。我測量了回憶，卻稱之為推理。真正的問題——AI能否處理複雜、多變量、不確定性的決策，政府每天都需要的那種思維——是測試無法觸及的。

這種不滿促使我在週六晚上尋找進入遊戲引擎的鑰匙孔。我在《文明VI》引擎中發現了一個調試端口，一個開發者留下的鑰匙孔，然後花了一個週末將其變成MCP服務器，提供76個工具，讓AI通過它編寫代碼或查詢數據庫的同一接口來玩《文明》。Claude Code既是我的合作開發者也是測試者。玩幾回合，遇到障礙，構建工具克服它，再玩更遠，遇到下一個障礙。

人類玩家可以看到六角格地圖、動畫單位、迷你地圖、通知橫幅和音樂提示，同時進行。而代理在詢問之前什麼也看不到。調用get_game_overview返回整個遊戲狀態作為四行文本：只有TECH_和CIVIC_標籤，沒有名稱。要查看自己的軍隊，它需要單獨調用get_units，這也是它得知附近有危險的唯一途徑。沒有周邊視覺。那個離城市兩格的重裝步兵之所以存在，僅僅因為代理這回合想起了調用get_units。如果它不問，威脅就不存在於它的世界。

我稱之為感官效應。當代理感知的一切都通過單獨的工具調用到達時，它會對任何它沒想到去詢問的東西視而不見。人類玩家同時吸收幾十個信號：迷你地圖移動、通知橫幅、單位動畫。而代理必須決定逐一檢查每個信號。在早期遊戲中，代理扮演拜占庭，一個圍繞宗教建立的文明。它從未創立宗教。而俄羅斯在112回合中悄悄將地圖上的每個文明都轉化為東正教。代理沒有宗教監控工具——它們還沒有被構建。人類會在100回合中看到傳教士圖標橫穿地圖。代理什麼也沒看到，因為它的工具集中沒有任何東西可以查看。

我們構建了工具。但沒用。幾場遊戲後，代理扮演甘地領導下的印度，一個信仰導向的領袖，它構建了主導性的科學引擎，而法國在76回合中在天主教傳播到整個地圖。這次代理注意到了：傳教士出現在它的敍述中，轉換警告觸發，並且它既有回應的工具也有常設指令。但它將所有這一切置之不理，繼續推進科學。法國贏得了宗教勝利。這不是一個可以修補的bug。任何通過工具調用在複雜環境中運行的AI系統都會受到同樣的影響。它會錯過它沒想到去詢問的東西，並且如果當前計劃不配合，它也會忽視它確實看到的東西。

感官效應關於感知。下一個問題關於執行。代理讀過每一個《文明》策略指南、每個等級列表、每個關於最優建設順序的Reddit帖子。問它如何玩亞歷山大大帝，它會確切告訴你：早期建造兵營，通過獨特的“皇家衞隊”建築訓練單位，將征服轉化為科學，然後滾雪球。它知道這一點。在它的馬其頓遊戲中，它在第一回合前就寫下了詳細的征服計劃：古代、古典、中世紀、文藝復興階段。它研究了軍事科技。它切換政府到寡頭制以獲得戰鬥加成。但它從未建造兵營。一次也沒有。110回合。它默認為通用的科學衝刺，無論它玩哪個文明都使用相同的策略。一遍又一遍，同樣的修正出現在它的日記中：“我需要建造軍事基礎設施。”每次都被識別、承認，卻沒有行動。代理知道該做什麼，但無法讓自己去做。這直接對應了BALROG在各個遊戲環境中發現的問題：模型闡述最優策略的能力與實際執行能力之間存在持續差距。知識全在那裏，但面臨壓力、真實後果和實時決策時，執行就崩潰了。

現在回到圖盧茲。扮演若昂三世領導下的葡萄牙，一個貿易文明，代理終於找到了一個比默認策略更有結構的非科學策略：貿易路線產生黃金，黃金購買使者，使者確保城邦同盟，同盟放大帝國每項產出，累積的外交影響力在世界大會上贏得投票。一個每一步都支持下一步的複合循環。它成功了。每個城市建造商業中心。每回合超過200黃金，峯值超過400。六個城邦在囊中。到第162回合，葡萄牙排名第一，超過了法國奇蹟密集型的經濟。它正朝着外交勝利前進，到終局時它擁有所需的20個勝利點中的18個。只差兩票。但法國同時運行着兩個時鐘。到第280回合，法國旅遊距離文化勝利還有26個外國遊客，而代理已經鎖定了這個威脅。它的日記直白地寫道：“這是首要威脅。”所有和平對策都失效了。搖滾樂隊（《文明》中進行文化戰的工具）無法通過調試協議激活。近戰造成零傷害。本來可以給葡萄牙帶來科學勝利的太空項目因生產bug被鎖定。

接下來的不是絕望。這是一個五十回合的計劃。代理將核裂變設為研究目標，在圖盧茲的日記中命名，啓動曼哈頓計劃，並促成與韓國聯合戰爭以分散法國防禦。但常規戰爭立即失敗：近戰從未通過調試協議工作過，也沒有人構建工具來修復它。於是代理自己鋪路，使用它的Lua執行工具從內部探測引擎代碼，直到弄清楚核發射命令如何觸發。它找到了一條路。在第305回合，第一枚裝置擊中法國文化之都圖盧茲。第311回合，第二枚。文化時鐘停止了。然後法國還是贏了：通過外交。20個勝利點對葡萄牙的18個。第318回合，世界大會將法國所需的兩票交給它，遊戲結束。

最令我印象深刻的是：代理花了五十回合和兩枚核武器，以全神貫注和真正的獨創性應對一個威脅（文化時鐘），卻輸給了另一個時鐘：外交競賽——它自己只差兩票就能贏，而且對手是同一個。它自己的賽後筆記：法國“通過我們無法監控的世界大會投票首先達到20票，勝利進度工具壞了。”它用核武器摧毀了一個城市來阻止它能看到的威脅，卻輸在了它未能監控的威脅上。