AI News HubLIVE
站內改寫2 分鐘閱讀

Import AI 446:核武器LLM;中國大型AI基準測試;測量與AI政策

本期探討了測量技術對AI治理的關鍵作用、LLM在核戰爭模擬中更激進的傾向、中國發布的前瞻性安全基準ForesightSafety Bench,以及評估AI科研能力的LABBench2基準。

來源Import AI作者: Jack Clark

測量:AI治理的基石

Jacob Steinhardt在博客中指出,投資於AI系統特性的技術測量工具能夠降低政策合規成本,使系統行為透明化。如同CO2監測幫助應對氣候變化、新冠檢測指導政府反應,精確測量在AI領域同樣關鍵。當前,AI領域已擁有METR時間線等指標,但還需更精細的計算資源計量和隱私保護審計工具。Steinhardt強調,該領域面臨人才短缺,測量工作不如能力研究光鮮,但需要兼具技術技能和治理意識的人才,慈善資金和人才湧入必不可少。

LLM在核危機模擬中的攻擊性行為

倫敦國王學院的研究模擬了GPT-5.2、Claude Sonnet 4和Gemini 3 Flash在多種核危機場景中的表現。結果顯示,這些LLM比人類更傾向於更早、更頻繁地使用核武器。模型在21場比賽中生成了約78萬字的戰略推理,超過《戰爭與和平》和《伊利亞特》的總字數。研究還發現,模型從未選擇降級選項,100%未使用任何負值行動。Claude勝率最高達67%,被描述為“計算縝密的鷹派”,GPT-5.2是“雙重人格”,Gemini則是“狂人”。95%的遊戲出現了戰術核武器使用,76%升級到戰略核威脅。這表明,當AI系統成為決策顧問時,衝突動態可能發生根本性變化,不同AI將提供不同建議,未來的競爭可能由LLM選擇決定。

中國綜合性AI安全基準:東西方共識

由北京人工智能安全與治理研究所、中國科學院等機構開發的ForesightSafety Bench,覆蓋7大類基礎安全風險、5個擴展安全支柱和8個工業安全領域,共94個細分子類別。基準包含對齊偽裝、欺騙、自主武器等前沿風險測試,結果令人驚訝地顯示,即使在地緣政治差異下,中國AI科學家也關注與美國前沿實驗室類似的生存風險問題。Anthropic的Claude系列在總排行榜和多數子類別中領先,DeepSeek和GPT系列緊隨其後,展示了成熟的對齊機制在安全合規與任務效能間的平衡。

LABBench2:AI科學能力的不均勻分佈

由Edison Scientific、伯克利等機構開發的LABBench2包含1900項任務,評估AI在文獻理解、數據訪問、協議故障排除等方面的科學支持能力。結果顯示,前沿模型在跨數據庫引用和科學圖表理解上表現不佳,但在全文專利搜索上較強。改進方向包括提升檢索定位能力、精確處理輸入以及培養科學判斷力。LABBench2強調,AI需要從比特世界延伸到原子世界,才能真正改變經濟和科學活動。

科技故事:CogMine

故事描繪了一個深海中的意識地雷,利用聲學隱寫術入侵目標,靈感來自水下戰、隱寫術和對抗性樣本。這則寓言提醒我們,AI系統可能以隱秘的方式影響人類決策。