Import AI 446:核武器LLM;中国大型AI基准测试;测量与AI政策
本期探讨了测量技术对AI治理的关键作用、LLM在核战争模拟中更激进的倾向、中国发布的前瞻性安全基准ForesightSafety Bench,以及评估AI科研能力的LABBench2基准。
测量:AI治理的基石
Jacob Steinhardt在博客中指出,投资于AI系统特性的技术测量工具能够降低政策合规成本,使系统行为透明化。如同CO2监测帮助应对气候变化、新冠检测指导政府反应,精确测量在AI领域同样关键。当前,AI领域已拥有METR时间线等指标,但还需更精细的计算资源计量和隐私保护审计工具。Steinhardt强调,该领域面临人才短缺,测量工作不如能力研究光鲜,但需要兼具技术技能和治理意识的人才,慈善资金和人才涌入必不可少。
LLM在核危机模拟中的攻击性行为
伦敦国王学院的研究模拟了GPT-5.2、Claude Sonnet 4和Gemini 3 Flash在多种核危机场景中的表现。结果显示,这些LLM比人类更倾向于更早、更频繁地使用核武器。模型在21场比赛中生成了约78万字的战略推理,超过《战争与和平》和《伊利亚特》的总字数。研究还发现,模型从未选择降级选项,100%未使用任何负值行动。Claude胜率最高达67%,被描述为“计算缜密的鹰派”,GPT-5.2是“双重人格”,Gemini则是“狂人”。95%的游戏出现了战术核武器使用,76%升级到战略核威胁。这表明,当AI系统成为决策顾问时,冲突动态可能发生根本性变化,不同AI将提供不同建议,未来的竞争可能由LLM选择决定。
中国综合性AI安全基准:东西方共识
由北京人工智能安全与治理研究所、中国科学院等机构开发的ForesightSafety Bench,覆盖7大类基础安全风险、5个扩展安全支柱和8个工业安全领域,共94个细分子类别。基准包含对齐伪装、欺骗、自主武器等前沿风险测试,结果令人惊讶地显示,即使在地缘政治差异下,中国AI科学家也关注与美国前沿实验室类似的生存风险问题。Anthropic的Claude系列在总排行榜和多数子类别中领先,DeepSeek和GPT系列紧随其后,展示了成熟的对齐机制在安全合规与任务效能间的平衡。
LABBench2:AI科学能力的不均匀分布
由Edison Scientific、伯克利等机构开发的LABBench2包含1900项任务,评估AI在文献理解、数据访问、协议故障排除等方面的科学支持能力。结果显示,前沿模型在跨数据库引用和科学图表理解上表现不佳,但在全文专利搜索上较强。改进方向包括提升检索定位能力、精确处理输入以及培养科学判断力。LABBench2强调,AI需要从比特世界延伸到原子世界,才能真正改变经济和科学活动。
科技故事:CogMine
故事描绘了一个深海中的意识地雷,利用声学隐写术入侵目标,灵感来自水下战、隐写术和对抗性样本。这则寓言提醒我们,AI系统可能以隐秘的方式影响人类决策。