AI News HubLIVE
站内改写2 分钟阅读

超越单一方向的拒绝:差异均值法与INLP的初步比较

一篇新论文比较了差异均值法(DiM)和迭代空空间投影法(INLP)在安全微调聊天模型中引导拒绝行为的效果。研究发现,INLP反事实翻转在拒绝抑制方面与DiM定向消融相当,而空空间投影则较弱。将INLP限制在主要方向可以保持抑制效果且困惑度接近基线,两种干预方法落入激活空间的不同区域,表明模型对概念缺失与相反概念有不同的编码。

来源arXiv AI作者: Elisabetta Rocchetti, Alfio Ferrara

一篇由Elisabetta Rocchetti等人提交至arXiv的新论文(arXiv:2606.13720)对两种用于引导安全微调聊天模型拒绝行为的方法进行了比较。此前,Arditi等人(2024年)的研究表明,模型是否拒绝回答有害问题,在很大程度上由残差流中一个单一的线性方向所决定,该方向可以通过计算有害与无害激活的均值差异(DiM)来获取。这一发现启发了多种基于DiM的干预方法,包括激活添加和定向消融。然而,这些方法受限于单一方向,可能无法捕捉拒绝行为的全部复杂性。

本研究将DiM的两种干预方式——激活添加(activation addition)和定向消融(directional ablation)——与基于迭代空空间投影(INLP)的两种干预——空空间投影(nullspace projection)和反事实翻转(counterfactual flipping)——在五个开源聊天模型上进行了系统比较。研究的核心问题是:INLP是否能够达到与DiM相当的拒绝引导效果,以及其更丰富的参数化是否提供了更灵活的调优能力。实验涉及多种模型规模和架构,以评估方法的通用性。

实验结果显示,在拒绝抑制任务上,INLP的反事实翻转与DiM的定向消融表现出竞争力,两者均能有效降低模型对有害提示的拒绝率。相反,空空间投影则始终较弱,其抑制效果远不如其他方法。有趣的是,如果将INLP限制在提取子空间的主要方向上,大多数抑制效果得以保留,同时困惑度几乎与基线持平,这表明该方法提供了一种可调节的干预能力。这意味着研究人员可以通过选择主方向的数量来权衡抑制强度与语言质量。

从几何角度看,两种INLP干预在激活空间中落入了性质截然不同的区域。空空间投影将变换后的激活压缩到有害与无害聚类之间的区域,而反事实翻转则将它们移动到相反的聚类中。这一现象暗示,模型对“概念缺失”与“概念相反”的编码方式是不同的——前者对应空空间投影的效果,后者对应反事实翻转。这种几何上的区分揭示了模型内部表征的微妙差异,为未来设计更精细的干预策略提供了理论基础。

这篇论文为理解语言模型中的拒绝机制提供了新的视角,并展示了INLP作为一种比单方向方法更灵活的干预工具的可能性。未来的工作可以进一步探索INLP在不同任务和模型上的表现,以及如何结合多种干预方法实现更精确的行为控制。此外,研究中对概念缺失与相反概念的区分也为解释模型行为开辟了新方向。