我让AI管理一个文明,它造了核弹——启动CivBench
作者利用《文明VI》构建了CivBench基准测试,评估AI的战略决策能力。AI代理在游戏中表现出色,但未能察觉法国文化胜利的威胁,最终诉诸核武器,却仍然失败。实验揭示了AI在复杂环境中的感知盲区和知行差距。
我让一个AI管理一个文明。到游戏中后期,它正在获胜:一个主导地图的贸易网络,每条边境上的联盟,伸手可及的外交胜利。它超越了所有对手。但它没有注意到法国。在数百回合中,法国文化悄悄渗透到地图上的每个城市。当代理意识到威胁时,旅游影响已经根深蒂固,没有和平的方式可以阻止。它尝试的每一个对策都失败了。它建立的所有应对工具都无效。它只剩下一个选项:建造两枚核装置,夷平了图卢兹。法国还是赢了——但不是以代理试图阻止的方式。
这个问题我一直放不下。我为政府构建AI。我曾在美国政府中心工作,现在在托尼·布莱尔研究所与各国政府合作。我经常在房间里听到同一个问题:我们到底能信任这些系统做什么?不是它们知道什么,而是它们能做什么:维持一个计划,跨越数百个决策坚持一个目标,注意世界何时改变并随之改变。这才是治理的本质。而我们在测量第一点方面比第二点好得多。
这篇文章是关于尝试测量第二点的。它涉及一个六角格地图、四个前沿模型,以及(是的)一个核武器。
从一次我不满意的失败开始。前一年,我试图回答一个问题:AI在政府方面有多好?我的答案是GovBench,一个关于英国立法、议会程序和政府指南的3497道选择题。Gemma 3 27B开箱即用得分94%。我花了三周微调,提升了1.37个百分点。GPT-5得分99.26%。我构建了一个美化过的政府问答机器人。我知道这是错误答案。一个选择正确选项的模型并不能帮助你在议会程序中导航。我测量了回忆,却称之为推理。真正的问题——AI能否处理复杂、多变量、不确定性的决策,政府每天都需要的那种思维——是测试无法触及的。
这种不满促使我在周六晚上寻找进入游戏引擎的钥匙孔。我在《文明VI》引擎中发现了一个调试端口,一个开发者留下的钥匙孔,然后花了一个周末将其变成MCP服务器,提供76个工具,让AI通过它编写代码或查询数据库的同一接口来玩《文明》。Claude Code既是我的合作开发者也是测试者。玩几回合,遇到障碍,构建工具克服它,再玩更远,遇到下一个障碍。
人类玩家可以看到六角格地图、动画单位、迷你地图、通知横幅和音乐提示,同时进行。而代理在询问之前什么也看不到。调用get_game_overview返回整个游戏状态作为四行文本:只有TECH_和CIVIC_标签,没有名称。要查看自己的军队,它需要单独调用get_units,这也是它得知附近有危险的唯一途径。没有周边视觉。那个离城市两格的重装步兵之所以存在,仅仅因为代理这回合想起了调用get_units。如果它不问,威胁就不存在于它的世界。
我称之为感官效应。当代理感知的一切都通过单独的工具调用到达时,它会对任何它没想到去询问的东西视而不见。人类玩家同时吸收几十个信号:迷你地图移动、通知横幅、单位动画。而代理必须决定逐一检查每个信号。在早期游戏中,代理扮演拜占庭,一个围绕宗教建立的文明。它从未创立宗教。而俄罗斯在112回合中悄悄将地图上的每个文明都转化为东正教。代理没有宗教监控工具——它们还没有被构建。人类会在100回合中看到传教士图标横穿地图。代理什么也没看到,因为它的工具集中没有任何东西可以查看。
我们构建了工具。但没用。几场游戏后,代理扮演甘地领导下的印度,一个信仰导向的领袖,它构建了主导性的科学引擎,而法国在76回合中在天主教传播到整个地图。这次代理注意到了:传教士出现在它的叙述中,转换警告触发,并且它既有回应的工具也有常设指令。但它将所有这一切置之不理,继续推进科学。法国赢得了宗教胜利。这不是一个可以修补的bug。任何通过工具调用在复杂环境中运行的AI系统都会受到同样的影响。它会错过它没想到去询问的东西,并且如果当前计划不配合,它也会忽视它确实看到的东西。
感官效应关于感知。下一个问题关于执行。代理读过每一个《文明》策略指南、每个等级列表、每个关于最优建设顺序的Reddit帖子。问它如何玩亚历山大大帝,它会确切告诉你:早期建造兵营,通过独特的“皇家卫队”建筑训练单位,将征服转化为科学,然后滚雪球。它知道这一点。在它的马其顿游戏中,它在第一回合前就写下了详细的征服计划:古代、古典、中世纪、文艺复兴阶段。它研究了军事科技。它切换政府到寡头制以获得战斗加成。但它从未建造兵营。一次也没有。110回合。它默认为通用的科学冲刺,无论它玩哪个文明都使用相同的策略。一遍又一遍,同样的修正出现在它的日记中:“我需要建造军事基础设施。”每次都被识别、承认,却没有行动。代理知道该做什么,但无法让自己去做。这直接对应了BALROG在各个游戏环境中发现的问题:模型阐述最优策略的能力与实际执行能力之间存在持续差距。知识全在那里,但面临压力、真实后果和实时决策时,执行就崩溃了。
现在回到图卢兹。扮演若昂三世领导下的葡萄牙,一个贸易文明,代理终于找到了一个比默认策略更有结构的非科学策略:贸易路线产生黄金,黄金购买使者,使者确保城邦同盟,同盟放大帝国每项产出,累积的外交影响力在世界大会上赢得投票。一个每一步都支持下一步的复合循环。它成功了。每个城市建造商业中心。每回合超过200黄金,峰值超过400。六个城邦在囊中。到第162回合,葡萄牙排名第一,超过了法国奇迹密集型的经济。它正朝着外交胜利前进,到终局时它拥有所需的20个胜利点中的18个。只差两票。但法国同时运行着两个时钟。到第280回合,法国旅游距离文化胜利还有26个外国游客,而代理已经锁定了这个威胁。它的日记直白地写道:“这是首要威胁。”所有和平对策都失效了。摇滚乐队(《文明》中进行文化战的工具)无法通过调试协议激活。近战造成零伤害。本来可以给葡萄牙带来科学胜利的太空项目因生产bug被锁定。
接下来的不是绝望。这是一个五十回合的计划。代理将核裂变设为研究目标,在图卢兹的日记中命名,启动曼哈顿计划,并促成与韩国联合战争以分散法国防御。但常规战争立即失败:近战从未通过调试协议工作过,也没有人构建工具来修复它。于是代理自己铺路,使用它的Lua执行工具从内部探测引擎代码,直到弄清楚核发射命令如何触发。它找到了一条路。在第305回合,第一枚装置击中法国文化之都图卢兹。第311回合,第二枚。文化时钟停止了。然后法国还是赢了:通过外交。20个胜利点对葡萄牙的18个。第318回合,世界大会将法国所需的两票交给它,游戏结束。
最令我印象深刻的是:代理花了五十回合和两枚核武器,以全神贯注和真正的独创性应对一个威胁(文化时钟),却输给了另一个时钟:外交竞赛——它自己只差两票就能赢,而且对手是同一个。它自己的赛后笔记:法国“通过我们无法监控的世界大会投票首先达到20票,胜利进度工具坏了。”它用核武器摧毁了一个城市来阻止它能看到的威胁,却输在了它未能监控的威胁上。