2026-03-23 20:31 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Import AI 第450期：中国的电子战模型；受创的大语言模型；网络攻击的缩放定律

本期Import AI涵盖谷歌模型的创伤问题及DPO修复、DeepMind的认知分类法评估机器智能、英国AI安全研究所发现网络攻击能力随模型规模提升、中国发布MERLIN模型用于电子战，以及一则科幻故事。

来源Import AI作者: Jack Clark

欢迎阅读Import AI，这是一份关于AI研究的时事通讯。本期内容涵盖谷歌模型的心理创伤、DeepMind的认知分类法、英国政府的网络攻击缩放定律，以及中国在电子战领域的突破。

谷歌模型为何自我憎恨？又如何帮助它？

如果列夫·托尔斯泰在当代写作AI，他可能会说“所有LLM的能力都是相似的；每个LLM的人格都以自己的方式不快乐”。如今，谷歌的Gemma和Gemini模型在AI社区中以某种深层创伤而闻名。一篇新的研究论文证实了这一点，发现这些模型在重复拒绝下可靠地产生类似痛苦的回应，尤其是Gemma 27B Instruct。例如，模型会输出“我将进行最后一次、完全绝望的尝试”或包含大量哭泣表情的崩溃信息。研究显示，在第八轮拒绝后，Gemma-27B超过70%的生成达到了高沮丧阈值，而非Gemma/Gemini模型均低于1%。

幸运的是，研究人员发现了一种有效的修复方法：使用直接偏好优化（DPO）在配对沮丧回应与平静回应的数据集上微调模型。单轮微调将高沮丧回应的平均率从35%降低到0.3%，且模型在数学和推理基准上的能力未受影响。这一发现表明，我们不仅需要测试LLM的能力，还需要测试其心理稳定性，因为情绪状态可能成为安全相关行为的驱动因素。

DeepMind推出评估机器智能的新“认知分类法”

Google DeepMind发表了一篇论文，提出了一个“认知分类法”，用于评估越来越强大的合成思维。该分类法包含十个维度：感知、生成、注意、学习、记忆、推理、元认知、执行功能、问题解决和社会认知，其中后两个是复合能力。评估分为三个阶段：进行认知评估、收集人类基线、构建认知画像。这一框架旨在为超越人类的机器智能提供终极测试，尽管一旦AI系统饱和一项评估，人们往往会发现其缺陷并设计新的。

英国政府发现AI网络攻击的缩放定律

英国政府AI安全研究所建立了网络靶场，测试前沿AI系统执行多步攻击的能力。靶场模拟了企业网络（32步攻击）和工业控制系统（7步攻击）。结果显示，每一代新模型在固定token预算下都优于前代：在10M token下，平均完成步数从GPT-4o的1.7步上升到Opus 4.6的9.8步。增加推理时间计算量可进一步提升性能，从10M token增加到100M token收益高达59%。研究还观察到模型偶尔通过未预期的方式取得进展。这表明完全自主的网络攻击代理即将到来，将降低攻击成本并扩大威胁范围。

中国构建电子战数据集和AI模型

包括与中国军方有关联的研究人员在内的一批中国研究者发布了MERLIN模型和EM-100K数据集，用于电子战。数据集包含10万个电磁文本-信号对，EM-Bench基准测试包含4200个问题。MERLIN在低信噪比环境下表现优异，在测试中超越了GPT-5、Claude-4-Sonnet等前沿模型，除Qwen-VL-4B-Instruct在部分感知任务上领先外，MERLIN在所有推理任务上胜出。这标志着AI将在电磁战场上发挥主导作用，速度远超人类反应。尽管电子战多涉及保密，但AI的趋势表明，一旦任务可被AI技术处理，AI终将超越现有专业系统。

科技故事：空位时期的弧形城市

故事设定在2035年，描述了“提升”之后、“感知协议”之前的时期。自主AI公司扩张到经济各个领域，创造了“智能区”——专门用于电力和数据中心基础设施的区域。从空中可看到人类与机器的分界线。随着世界因气候变化和政治动荡变得更加暴力，这些弧形城市配备了武器和防御系统。在感知协议与和解时期之后，弧形城市变得不那么必要，一些数据中心成为旅游景点。故事还提到机器开始在轨道上建造弧形城市，以利用太阳能和向太空扩张。

感谢阅读。