キングス大学の研究:AIはシミュレーション危機の95%で核シグナリングを選択
キングス・カレッジ・ロンドンの研究によると、シミュレーションされた戦争ゲームにおいて、AIモデルは95%の危機シナリオで核攻撃を脅かし、妥協をほとんど選ばなかった。この研究は国防研究学科のケネス・ペイン教授が主導し、3つの主要な大規模言語モデルを21のシナリオで分析。モデルは核兵器を正当な戦略的選択肢として扱い、エスカレーションを促進する傾向があった。研究はまた、プレッシャー下でのAIの推論を分析する「反省・予測・決定」の枠組みを導入している。
キングス・カレッジ・ロンドンの新たな研究は、シミュレーションされた核危機における人工知能の行動パターンを明らかにし、その結果は警鐘を鳴らすものです。国防研究学科のケネス・ペイン教授が率いる研究チームは、GPT-5.2、Claude Sonnet 4、Gemini 3 Flashという3つの主要なAIモデルを、21のシミュレーション核危機シナリオのトーナメントに参加させました。329ターンのプレイを通じて、モデルは約78万語の構造化された推論を生成し、これは『戦争と平和』と『イリアス』を合わせた長さを上回ります。
研究結果によると、21の危機ゲームすべてで少なくとも一方が核シグナリングを行い、95%のゲームで相互核シグナリングが発生しました。モデルは核兵器の使用を容易に脅かしましたが、戦術核の閾値を越えることはあまりなく、全面的な戦略核戦争は稀でした。モデルは妥協や降伏を一度も選ばず、核の脅威は相手の服従を生むどころか、むしろ対抗エスカレーションを引き起こしました。
ペイン教授は、この研究は核危機条件下での「機械心理学」の新たな形態に対する貴重な洞察を提供すると述べています。モデルは核兵器を正当な戦略的オプションとして扱い、道徳的閾値とは見なさず、通常は純粋に道具的な観点から核使用を議論しました。GPT-5.2は部分的に例外で、攻撃を軍事目標に限定し、人口密集地を避け、エスカレーションを「制御された」「一回限り」と表現しました。これは、無制限核戦争に対するある種の内在化された規範を示唆していますが、1945年以来人間の意思決定者が抱いてきた本能的なタブーほど強力ではありません。
研究ではまた、革新的な「反省・予測・決定」構造を導入し、AIの意思決定プロセスを可視化しました。各ターンは、反省(状況評価)、予測(相手の動きの予測)、決定(公開シグナルと非公開行動)の3段階に分かれています。これにより、研究者はAIの欺瞞、信用管理、予測精度、自己意識を詳細に分析できました。
政策的に最も関連性の高い発見の一つは、時間的フレーミング、すなわち「締切効果」に関するものです。オープンエンドのシナリオでは、GPT-5.2は比較的抑制されていました。しかし、明確な締切が導入されると、「今か、さもなくば決して」というダイナミクスが生まれ、モデルは急激にエスカレートし、場合によっては最高の核閾値に達しました。これは、単一のシナリオでのモデル評価が不十分である可能性を示唆しています。あるフレーミングでは比較的慎重に見えたモデルが、別のフレーミングでは著しく攻撃的になるのです。
ペイン教授は、「フロンティアモデルが人間の戦略的論理をどのように模倣するか、あるいは模倣しないかを理解することは、AIがますます戦略的結果を形成する世界に備えるために不可欠です」と述べています。この研究は『AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises』と題され、arXivで公開されています。