2026-05-23 18:32 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Nous Research发布对比神经元归因（CNA）：无需SAE训练或权重修改的稀疏MLP电路操控

Nous Research推出对比神经元归因（CNA）方法，通过识别并消融稀疏MLP神经元回路来操控大语言模型行为，无需稀疏自编码器训练、权重修改，且不降低通用能力基准。

来源MarkTechPost作者: Asif Razzaq

Nous Research团队近日发布了一项名为对比神经元归因（Contrastive Neuron Attribution, CNA）的新技术，用于精确操控大语言模型的行为，而无需进行传统的稀疏自编码器（SAE）训练或修改模型权重。该方法通过识别和消融稀疏MLP神经元回路，能够有效降低指令微调模型的拒绝率，同时保持输出质量和通用能力不受影响。

现有方法如对比激活添加（CAA）虽然有效，但粗粒度地修改整个残差流信号，在强干预下会导致输出质量下降。而稀疏自编码器（SAE）需要昂贵的额外训练且对噪声敏感。CNA则只需两次前向传播（无需梯度），即可定位负责特定行为的神经元。

CNA的核心步骤包括：定义正向提示（如有害请求）和负向提示（如良性请求），记录每个MLP层在最后一个token位置的投影激活值，计算每个神经元在两组提示上的平均激活差。然后，选取所有层中绝对差异最大的前0.1%的神经元，并过滤掉那些在80%以上不同提示中均处于前0.1%的“通用”神经元。最后，在推理时通过标量乘子对这些神经元进行消融（m=0）或放大（m>1），验证其因果关系。

在JBB-Behaviors基准测试中，CNA在Llama和Qwen系列（1B到72B参数）的16个模型上进行了验证。消融后，多数指令模型的拒绝率降低了50%以上，例如Qwen2.5-7B-Instruct从87%降至2%（降幅97.7%），Llama-3.1-70B-Instruct从86%降至18%（降幅79.1%）。输出质量的重复n-gram分数保持在0.97以上，MMLU准确率与基线相差不到1个百分点。

一个关键发现是，区分有害与良性提示的晚期层结构在基础模型中已经存在，对齐微调并非创建新结构，而是改变了该结构内神经元的功能。例如，消融基础模型中的相同神经元不会改变行为（如拒绝有害请求），但会改变内容生成风格；而指令模型中的相同回路则作为因果安全门。这揭示了层结构（预训练形成）与神经元功能（微调转变）之间的分离。

CNA的易用性使其成为AI可解释性和安全控制的有力工具。研究团队提供了详尽的代码示例和实现步骤，并指出该方法的局限性：目前仅在Llama 3.1/3.2和Qwen 2.5的纯解码器架构上验证，尚未在混合专家模型上测试。基础模型在消融下无行为变化，仅指令模型表现出显著的安全门效应。