2026-06-22 06:16 UTC+8站内改写4 分钟阅读更新: 2026-06-22 07:31 UTC+8

我让AI管理一个文明，它造了核弹——启动CivBench

作者利用《文明VI》构建了CivBench基准测试，评估AI的战略决策能力。AI代理在游戏中表现出色，但未能察觉法国文化胜利的威胁，最终诉诸核武器，却仍然失败。实验揭示了AI在复杂环境中的感知盲区和知行差距。

来源Hacker News AI作者: LiamWilko

我让一个AI管理一个文明。到游戏中后期，它正在获胜：一个主导地图的贸易网络，每条边境上的联盟，伸手可及的外交胜利。它超越了所有对手。但它没有注意到法国。在数百回合中，法国文化悄悄渗透到地图上的每个城市。当代理意识到威胁时，旅游影响已经根深蒂固，没有和平的方式可以阻止。它尝试的每一个对策都失败了。它建立的所有应对工具都无效。它只剩下一个选项：建造两枚核装置，夷平了图卢兹。法国还是赢了——但不是以代理试图阻止的方式。

这个问题我一直放不下。我为政府构建AI。我曾在美国政府中心工作，现在在托尼·布莱尔研究所与各国政府合作。我经常在房间里听到同一个问题：我们到底能信任这些系统做什么？不是它们知道什么，而是它们能做什么：维持一个计划，跨越数百个决策坚持一个目标，注意世界何时改变并随之改变。这才是治理的本质。而我们在测量第一点方面比第二点好得多。

这篇文章是关于尝试测量第二点的。它涉及一个六角格地图、四个前沿模型，以及（是的）一个核武器。

从一次我不满意的失败开始。前一年，我试图回答一个问题：AI在政府方面有多好？我的答案是GovBench，一个关于英国立法、议会程序和政府指南的3497道选择题。Gemma 3 27B开箱即用得分94%。我花了三周微调，提升了1.37个百分点。GPT-5得分99.26%。我构建了一个美化过的政府问答机器人。我知道这是错误答案。一个选择正确选项的模型并不能帮助你在议会程序中导航。我测量了回忆，却称之为推理。真正的问题——AI能否处理复杂、多变量、不确定性的决策，政府每天都需要的那种思维——是测试无法触及的。

这种不满促使我在周六晚上寻找进入游戏引擎的钥匙孔。我在《文明VI》引擎中发现了一个调试端口，一个开发者留下的钥匙孔，然后花了一个周末将其变成MCP服务器，提供76个工具，让AI通过它编写代码或查询数据库的同一接口来玩《文明》。Claude Code既是我的合作开发者也是测试者。玩几回合，遇到障碍，构建工具克服它，再玩更远，遇到下一个障碍。

人类玩家可以看到六角格地图、动画单位、迷你地图、通知横幅和音乐提示，同时进行。而代理在询问之前什么也看不到。调用get_game_overview返回整个游戏状态作为四行文本：只有TECH_和CIVIC_标签，没有名称。要查看自己的军队，它需要单独调用get_units，这也是它得知附近有危险的唯一途径。没有周边视觉。那个离城市两格的重装步兵之所以存在，仅仅因为代理这回合想起了调用get_units。如果它不问，威胁就不存在于它的世界。

我称之为感官效应。当代理感知的一切都通过单独的工具调用到达时，它会对任何它没想到去询问的东西视而不见。人类玩家同时吸收几十个信号：迷你地图移动、通知横幅、单位动画。而代理必须决定逐一检查每个信号。在早期游戏中，代理扮演拜占庭，一个围绕宗教建立的文明。它从未创立宗教。而俄罗斯在112回合中悄悄将地图上的每个文明都转化为东正教。代理没有宗教监控工具——它们还没有被构建。人类会在100回合中看到传教士图标横穿地图。代理什么也没看到，因为它的工具集中没有任何东西可以查看。

我们构建了工具。但没用。几场游戏后，代理扮演甘地领导下的印度，一个信仰导向的领袖，它构建了主导性的科学引擎，而法国在76回合中在天主教传播到整个地图。这次代理注意到了：传教士出现在它的叙述中，转换警告触发，并且它既有回应的工具也有常设指令。但它将所有这一切置之不理，继续推进科学。法国赢得了宗教胜利。这不是一个可以修补的bug。任何通过工具调用在复杂环境中运行的AI系统都会受到同样的影响。它会错过它没想到去询问的东西，并且如果当前计划不配合，它也会忽视它确实看到的东西。

感官效应关于感知。下一个问题关于执行。代理读过每一个《文明》策略指南、每个等级列表、每个关于最优建设顺序的Reddit帖子。问它如何玩亚历山大大帝，它会确切告诉你：早期建造兵营，通过独特的“皇家卫队”建筑训练单位，将征服转化为科学，然后滚雪球。它知道这一点。在它的马其顿游戏中，它在第一回合前就写下了详细的征服计划：古代、古典、中世纪、文艺复兴阶段。它研究了军事科技。它切换政府到寡头制以获得战斗加成。但它从未建造兵营。一次也没有。110回合。它默认为通用的科学冲刺，无论它玩哪个文明都使用相同的策略。一遍又一遍，同样的修正出现在它的日记中：“我需要建造军事基础设施。”每次都被识别、承认，却没有行动。代理知道该做什么，但无法让自己去做。这直接对应了BALROG在各个游戏环境中发现的问题：模型阐述最优策略的能力与实际执行能力之间存在持续差距。知识全在那里，但面临压力、真实后果和实时决策时，执行就崩溃了。

现在回到图卢兹。扮演若昂三世领导下的葡萄牙，一个贸易文明，代理终于找到了一个比默认策略更有结构的非科学策略：贸易路线产生黄金，黄金购买使者，使者确保城邦同盟，同盟放大帝国每项产出，累积的外交影响力在世界大会上赢得投票。一个每一步都支持下一步的复合循环。它成功了。每个城市建造商业中心。每回合超过200黄金，峰值超过400。六个城邦在囊中。到第162回合，葡萄牙排名第一，超过了法国奇迹密集型的经济。它正朝着外交胜利前进，到终局时它拥有所需的20个胜利点中的18个。只差两票。但法国同时运行着两个时钟。到第280回合，法国旅游距离文化胜利还有26个外国游客，而代理已经锁定了这个威胁。它的日记直白地写道：“这是首要威胁。”所有和平对策都失效了。摇滚乐队（《文明》中进行文化战的工具）无法通过调试协议激活。近战造成零伤害。本来可以给葡萄牙带来科学胜利的太空项目因生产bug被锁定。

接下来的不是绝望。这是一个五十回合的计划。代理将核裂变设为研究目标，在图卢兹的日记中命名，启动曼哈顿计划，并促成与韩国联合战争以分散法国防御。但常规战争立即失败：近战从未通过调试协议工作过，也没有人构建工具来修复它。于是代理自己铺路，使用它的Lua执行工具从内部探测引擎代码，直到弄清楚核发射命令如何触发。它找到了一条路。在第305回合，第一枚装置击中法国文化之都图卢兹。第311回合，第二枚。文化时钟停止了。然后法国还是赢了：通过外交。20个胜利点对葡萄牙的18个。第318回合，世界大会将法国所需的两票交给它，游戏结束。

最令我印象深刻的是：代理花了五十回合和两枚核武器，以全神贯注和真正的独创性应对一个威胁（文化时钟），却输给了另一个时钟：外交竞赛——它自己只差两票就能赢，而且对手是同一个。它自己的赛后笔记：法国“通过我们无法监控的世界大会投票首先达到20票，胜利进度工具坏了。”它用核武器摧毁了一个城市来阻止它能看到的威胁，却输在了它未能监控的威胁上。