AI News HubLIVE
站内改写

Nous Research发布对比神经元归因(CNA):无需SAE训练或权重修改的稀疏MLP电路操控

Nous Research推出对比神经元归因(CNA)方法,通过识别并消融稀疏MLP神经元回路来操控大语言模型行为,无需稀疏自编码器训练、权重修改,且不降低通用能力基准。

文章情报

工程师进阶

要点

  • CNA通过对比正向和负向提示的MLP激活值,选出最相关神经元,只需前后向传播。
  • 仅消融0.1%的MLP神经元即可使多数指令模型的拒绝率降低50%以上,输出质量保持在0.97以上。
  • 研究发现,区分有害与良性提示的晚期层结构在基础模型中已存在,对齐微调只是改变了该结构内神经元的功能。
  • CNA在Llama和Qwen架构上验证,无需额外训练,优于传统对比激活添加(CAA)方法。

为什么重要

这条新闻值得关注,因为CNA通过对比正向和负向提示的MLP激活值,选出最相关神经元,只需前后向传播。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Nous Research团队近日发布了一项名为对比神经元归因(Contrastive Neuron Attribution, CNA)的新技术,用于精确操控大语言模型的行为,而无需进行传统的稀疏自编码器(SAE)训练或修改模型权重。该方法通过识别和消融稀疏MLP神经元回路,能够有效降低指令微调模型的拒绝率,同时保持输出质量和通用能力不受影响。

现有方法如对比激活添加(CAA)虽然有效,但粗粒度地修改整个残差流信号,在强干预下会导致输出质量下降。而稀疏自编码器(SAE)需要昂贵的额外训练且对噪声敏感。CNA则只需两次前向传播(无需梯度),即可定位负责特定行为的神经元。

CNA的核心步骤包括:定义正向提示(如有害请求)和负向提示(如良性请求),记录每个MLP层在最后一个token位置的投影激活值,计算每个神经元在两组提示上的平均激活差。然后,选取所有层中绝对差异最大的前0.1%的神经元,并过滤掉那些在80%以上不同提示中均处于前0.1%的“通用”神经元。最后,在推理时通过标量乘子对这些神经元进行消融(m=0)或放大(m>1),验证其因果关系。

在JBB-Behaviors基准测试中,CNA在Llama和Qwen系列(1B到72B参数)的16个模型上进行了验证。消融后,多数指令模型的拒绝率降低了50%以上,例如Qwen2.5-7B-Instruct从87%降至2%(降幅97.7%),Llama-3.1-70B-Instruct从86%降至18%(降幅79.1%)。输出质量的重复n-gram分数保持在0.97以上,MMLU准确率与基线相差不到1个百分点。

一个关键发现是,区分有害与良性提示的晚期层结构在基础模型中已经存在,对齐微调并非创建新结构,而是改变了该结构内神经元的功能。例如,消融基础模型中的相同神经元不会改变行为(如拒绝有害请求),但会改变内容生成风格;而指令模型中的相同回路则作为因果安全门。这揭示了层结构(预训练形成)与神经元功能(微调转变)之间的分离。

CNA的易用性使其成为AI可解释性和安全控制的有力工具。研究团队提供了详尽的代码示例和实现步骤,并指出该方法的局限性:目前仅在Llama 3.1/3.2和Qwen 2.5的纯解码器架构上验证,尚未在混合专家模型上测试。基础模型在消融下无行为变化,仅指令模型表现出显著的安全门效应。