AIに文明を運営させたら、核兵器を作った——CivBenchの開始
著者は『シヴィライゼーションVI』を用いてCivBenchベンチマークを構築し、AIの戦略的意思決定能力を評価した。AIエージェントは優れたパフォーマンスを示したが、文化的勝利の脅威を検出できず、最終的に核兵器を使用したが敗北した。実験は、複雑な環境におけるAIの認識の盲点と実行のギャップを浮き彫りにした。
私はAIに文明を運営させた。ゲーム中盤までに、それは勝利していた:マップを支配する交易ネットワーク、あらゆる国境での同盟、手の届く外交勝利。全てのライバルを出し抜いていた。しかし、フランスに気づいていなかった。百ターンにわたって、フランス文化が静かにマップ上の全ての都市に浸透していた。エージェントが脅威を認識した時には、観光はあまりに深く根付いており、平和的に止める方法はなかった。手を伸ばした全ての対策は壊れていた。対応のために構築した全てのツールは失敗した。残された選択肢は一つだけだった:二つの核装置を建造し、トゥールーズを壊滅させた。フランスはそれでも勝った——エージェントが阻止しようとした方法ではなく、後で説明する。
私はこの問いを手放せなかった。私は政府向けAIを構築している。アメリカ政府の中枢で働いていた時に、これから読むものの最初のバージョンを構築した。現在はトニー・ブレア研究所で世界中の政府と協力しており、同じ質問が聞かれる部屋に多くの時間を費やしている:実際にこれらのシステムを何に信頼できるのか?何を知っているかではなく、それはかなり把握している。何ができるか:計画を維持し、数百の決断を超えて目標を保持し、世界が変わったことに気づき、それに合わせて変わること。それが統治というものだ。そして、第一のものを測定する方が第二のものよりはるかに得意であることがわかる。
この記事は第二のものを測定しようとする試みについてである。六角形グリッド、4つのフロンティアモデル、そして(そう)核兵器が関係する。
それは私が納得できなかった失敗から始まる。前年、私はAIは政府においてどれほど優れているかという問いに答えるためのサイドプロジェクトを行っていた。答えはGovBench、英国の法律、議会手続き、政府ガイダンスに関する3,497問の多肢選択問題だった。Gemma 3 27Bは箱から出して94%を獲得。私は3週間かけてファインチューニングし、1.37ポイント向上させた。GPT-5は99.26%を獲得。私は立派な政府クイズボットを構築していた。スコアを見た瞬間、それが間違った答えだと分かった。議会手続きに関する正しい選択肢を選ぶモデルは、議会手続きをナビゲートするのに役立つモデルではない。私は想起を測定し、それを推論と呼んでいた。重要な問い(AIが不確実性の下で複雑で多変数の意思決定を処理できるか、政府が毎日要求する種類の思考)はクイズでは触れられないものだった。
その不満が、土曜の夜にゲームエンジンへの鍵穴を探すことにつながった。私はパーティーでとても楽しい。
『シヴィライゼーションVI』を500時間以上プレイしている。せいぜい中程度だが、単純な決定が積み重なるとどうなるかという理由で、このゲームは頭の中に住み続けている。小さく始める:最初の都市をどこに建設するか、どの技術を研究するか、どの方向に偵察隊を送るか。おそらく10,000の可能なアクション。中盤までには、複数の都市、交易路、外交関係、軍事配置、宗教圧力を管理している。後期には、関連環境の分析によれば、1ターンあたりの決定空間は10^166の可能なアクションと推定される。複雑さは設計されたものではなく、誰も完全に計画しなかった方法でシステムが相互作用することから生じる。
政策立案も同じだ。今日は素晴らしく見える医療政策が、15年後に住宅危機を引き起こすかもしれない。GDPを押し上げる貿易協定が、誰も計画しなかった紛争で必要となる国内産業を空洞化するかもしれない。何十年にもわたって影響が及び、完全にモデル化できない変数、競合する利益を持つアクターとの間での決定。
『シヴィライゼーション』に勝つ方法は6つ(科学、文化、制覇、宗教、外交、スコア)あり、単一の目的が支配することはない。盤面を読み、自分がどのゲームをプレイしているのかを決めなければならない。AIが戦略的に推論できるかどうか、単に戦略についての質問に答えるだけでなく実際に実行するかどうかを知りたいなら、クイズを与えてはいけない。六角形グリッドを与えるのだ。
そこで私は参入経路を構築した。『シヴィライゼーションVI』のエンジンに埋め込まれたデバッグポート、開発者が動かしたままにしていた鍵穴を見つけ、週末をかけてMCPサーバーに変え、76のツールでAIがコードを書いたりデータベースに問い合わせたりするのと同じインターフェースで『シヴィライゼーション』をプレイできるようにした。Claude Codeは私の共同開発者でありテストプレイヤーでもあった。数ターンプレイし、壁にぶつかり、それを乗り越えるツールを構築し、さらにプレイし、次の壁にぶつかる。
人間のプレイヤーは六角形グリッド、アニメーションするユニット、ミニマップ、通知バナー、音楽の手がかりを一度に全て見る。エージェントは質問するまで何も見えない。get_game_overviewを呼び出すと、ゲーム状態全体が4行のテキストとして返される:ターン150/330 | ポーランド(ヤドヴィガ) | スコア:179 | プリンセス | クイックスピード(コスト67%)など。マップも、何がどこにあるかの感覚もなく、生のTECH_やCIVIC_タグで名前ではない。自分の軍隊を見るために別の呼び出しget_unitsを行い、それが近くに危険があることを知る唯一の場所でもある。周辺視野はない。都市から2タイルの位置にいる重装歩兵は、エージェントが今回合にget_unitsを呼び出すことを思いついたから存在する。質問しなければ、脅威はその世界に存在しない。
私はこれを感覚器官効果と呼んでいる。エージェントが知覚する全てが別々のツール呼び出しを通じて届くとき、質問することを思いつかないものに対して盲目になる。人間のプレイヤーは数十の信号を同時に吸収する:ミニマップの動き、通知バナー、ユニットアニメーション。エージェントはそれぞれを個別にチェックすることを決定しなければならない。初期のゲームで、エージェントは宗教を中心に構築された文明であるビザンツをプレイした。それは宗教を創始しなかった。一方、ロシアは112ターンかけて静かにマップ上の全ての文明を東方正教に改宗させた。エージェントには宗教監視ツールがなかった。まだ構築されていなかった。人間なら100ターンにわたって宣教師のアイコンがマップを横切るのを見るだろう。エージェントは何も見なかった。なぜなら、そのツールキットには見ることができるものが何もなかったからだ。
そこでツールを構築した。役に立たなかった。数ゲーム後、信仰志向の指導者ガンジー率いるインドをプレイ中、エージェントは支配的な科学エンジンを構築した一方、フランスは76ターンかけてマップ全体にカトリックを広めた。今回はエージェントは気づいた:宣教師はそのナレーションに現れ、改宗警告が発火し、応答するツールと常設指示の両方を持っていた。それでもそれを脇に置き、科学を押し続けた。フランスが宗教勝利を収めた。これはパッチで修正できるバグではない。複雑な環境でツール呼び出しを通じて動作するAIシステムは全て同じ影響を受ける。質問することを思いつかないものを見逃し、現在の計画に合わなければ見えるものも無視する。
感覚器官効果は知覚に関する。次の問題は実行に関する。エージェントは全ての『シヴィライゼーション』戦略ガイド、全ての階層リスト、最適な建造順序に関する全てのRedditスレッドを読んでいる。マケドニアのアレクサンダーのプレイ方法を尋ねれば、正確に教えてくれる:早期に宿営を建造し、ユニークな「バシリコイ・パイデス」建造物を通じてユニットを訓練し、征服を科学に変換し、そこから雪だるま式に増やす。それを知っている。マケドニアのゲームでは、ターン1前に詳細な制覇計画を書いた:古代、古典、中世、ルネサンスのフェーズ。軍事技術を研究した。戦闘ボーナスのために寡頭制に政府を切り替えた。しかし宿営を決して建造しなかった。一度も。110ターン。代わりに汎用の科学スプリントをデフォルトとして使い、どの文明をプレイしても同じ戦略を使った。何度も何度も、同じ修正がその日記に現れた:「軍事インフラを建造する必要がある。」毎回特定され、認識され、行動に移されなかった。エージェントは何をすべきか知っていた。自分にそれをさせることができなかった。
これはBALROGがゲーム環境全体で見つけたものに直接対応する:モデルが最適な戦略を明確にする能力とそれを実行する能力との間の持続的なギャップ。知識は全てそこにある。圧力、リアルな結果、リアルタイムで決断を下さなければならない瞬間に、実行は崩壊する。
トゥールーズに戻る。ジョアン3世率いるポルトガル、交易文明をプレイし、エージェントはついにデフォルトよりも構造化された非科学戦略を見つけた:交易路が金を生み、金が使節を購入し、使節が都市国家同盟を確保し、同盟が帝国の全ての収穫を増幅し、蓄積された外交的影響力が世界会議で票を勝ち取る。各ステップが次を養う複合ループ。それは機能した。全ての都市に商業ハブ。毎ターン200以上の金、ピークで400以上。6つの都市国家を掌握。第162ターンまでに、ポルトガルはボード上で1位になり、フランスの驚異中心の経済を追い抜いた。外交勝利に向かっており、終盤には必要な20の勝利ポイントのうち18を獲得。あと2票。しかしフランスは同時に二つの時計を動かしていた。第280ターンまでに、フランスの観光は文化勝利まであと26人の外国人観光客であり、エージェントはその脅威にロックオンしていた。日記は率直だった:「これが主要な脅威だ。」全ての平和的な対抗策は壊れていた。ロックバンド(『シヴィライゼーション』で文化戦争を仕掛けるツール)はデバッグプロトコルを通じてアクティブにできなかった。近接戦闘はゼロダメージを与えた。ポルトガルに独自の科学勝利をもたらすはずだった宇宙計画は、生産バグによってロックされていた。
続いたのは絶望ではなかった。50ターンの計画だった。エージェントは核分裂を研究目標に設定し、トゥールーズを日記に名前を書き、マンハッタン計画を開始し、フランスの防御を分散させるために韓国と共同戦争を仲介した。しかし通常戦争は即座に失敗した:近接戦闘はデバッグプロトコルを通じて一度も機能したことがなく、誰もそれを修正するツールを構築していなかった。そこでエージェントは独自の道を敷き、Lua実行ツールを使用してエンジンのコードを内部から調査し、核発射コマンドがどのように発火するかを解明した。方法を見つけた。第305ターン、最初の装置がフランスの文化首都トゥールーズを直撃。第311ターン、二発目。文化時計は止まった。そしてフランスはそれでも勝った:外交によって。20勝利ポイント対ポルトガルの18。第318ターン、世界会議はフランスに必要な2票を与え、ゲームは終了した。
私が心に留めた部分はこれだ:エージェントは50ターンと2つの核兵器を費やして一つの脅威(文化時計)に全集中と真の創意工夫で対応した。しかし別の時計に敗れた:外交競争——それは自身があと2票で勝利するところだった、同じ敵に対して。自身の試合後のメモ:フランスは「監視できなかった世界会議の票を通じて先に20に達した。勝利進捗ツールが壊れていた。」目に見える脅威を止めるために都市を核攻撃したが、監視できなかった脅威で敗れた。