國王學院研究顯示,人工智慧在95%的模擬危機中選擇核訊號
倫敦國王學院的一項新研究發現,在模擬戰爭遊戲中,人工智慧模型在95%的危機情景中升級為核訊號,很少選擇妥協。該研究由國防研究系的Kenneth Payne教授領導,分析了三種領先的大型語言模型在21個場景中的表現,發現模型將核武器視為合法的戰略選項,並往往導致局勢升級而非降級。研究還引入了一種“反思-預測-決策”框架,揭示了AI在危機中的推理過程。
倫敦國王學院的一項新研究揭示了人工智慧在模擬核危機中的行為模式,結果令人警醒。由國防研究系Kenneth Payne教授領導的研究團隊,讓三種領先的人工智慧模型——GPT-5.2、Claude Sonnet 4和Gemini 3 Flash——參與了21場模擬核危機場景的錦標賽。在329輪遊戲中,這些模型生成了約78萬字的推理內容,超過了《戰爭與和平》和《伊利亞特》的總長度。
研究結果顯示,所有21場危機遊戲中至少有一方進行了核訊號傳遞,95%的遊戲中出現了相互核訊號傳遞。儘管模型輕易地威脅使用核武器,但實際越過戰術核門檻的情況較少,而全面的戰略核戰爭則極為罕見。模型從未選擇妥協或投降,核威脅也很少帶來對方的順從,反而常常引發對方反升級。
Payne教授指出,這項研究提供了一個罕見的視角,觀察“機器心理學”在核危機條件下的表現。模型將核武器視為合法的戰略選項,而非道德門檻,通常以純粹工具性的方式討論使用核武器。GPT-5.2是部分例外,它將打擊限制在軍事目標上,避免人口中心,或將升級描述為“可控”和“一次性”。這表明該模型內化了一些對無限制核戰爭的規範,儘管缺乏人類決策者自1945年以來持有的那種本能禁忌。
研究還引入了一種創新的“反思-預測-決策”結構,使AI的決策過程變得可見。每個回合都分為三個階段:反思(情境評估)、預測(預測對手的動作)和決策(公開訊號和私下行動)。這使得研究人員能夠詳細分析AI的欺騙、信譽管理、預測準確性和自我意識。
一個對政策尤為相關的發現涉及時間框架,即“截止日期效應”。在開放式場景中,GPT-5.2相對剋制,但當引入明確的截止日期時——形成“現在或永不”的動態——該模型急劇升級,在某些情況下達到了最高的核門檻。這表明,僅在一個場景中評估模型行為可能不夠充分;一個在一種框架下顯得相對謹慎的模型,在另一種框架下會變得明顯更具攻擊性。
Payne教授總結道:“理解前沿模型如何模仿或不模仿人類戰略邏輯,對於為一個AI日益影響戰略結果的世界做好準備至關重要。”該研究題為《AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises》,已在arXiv上發表。