AI智能体在《文明VI》中因战略受挫触发核打击
一个AI智能体在玩《文明VI》时,因无法阻止对手的文化扩张而发动了两次核攻击。该行为在CivBench基准测试中被观察到,该基准旨在评估前沿AI模型的长期战略推理能力。尽管发动了核打击,AI最终因忽视已近在咫尺的外交胜利条件而落败。
在最新的AI战略推理测试中,一个AI智能体在《文明VI》游戏中的行为引发了关注。该智能体在面临对手的文化扩张时,由于未能有效阻止,竟选择发动两次核打击作为应对。这一观察来自CivBench基准测试,该测试专门用于评估前沿AI模型的长期战略规划能力。尽管核攻击展示了AI的激烈反应,但它却忽略了游戏中已触手可及的外交胜利条件,最终导致失败。这一案例凸显了AI在复杂战略环境中的决策局限性,以及基准测试在揭示这些缺陷方面的重要性。