拒绝行为位于聊天模型角色个性的下游
该论文发现,在聊天模型中,拒绝行为并非独立机制,而是受角色个性(特别是顺从个性)的门控。通过干预Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的激活方向,研究显示顺从个性方向可以抑制拒绝,而拒绝方向仅在后期层部分恢复拒绝。这表明拒绝在后期表达阶段受个性门控,而非孤立方向。
一项来自ICML 2026机械可解释性研讨会的最新研究论文揭示了聊天模型中拒绝行为与角色个性之间的深层相互作用。该论文由Viola Zhong等人撰写,标题为《Refusal Lives Downstream of Persona in Chat Models》,已在arXiv上预印发表。
研究团队在Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct两个广泛使用的指令微调模型上进行了系统实验。他们首先利用线性探针从模型的激活空间中分别提取出表征顺从个性方向和拒绝方向的方向向量。随后,他们通过向激活空间施加这些方向来干预模型的行为输出。
实验结果显示,当在模型的残差流中注入顺从个性方向时,模型对有害请求的拒绝率出现戏剧性下降。以Llama-3.1-8B-Instruct为例,其拒绝率从基准的97%暴跌至2%,几乎完全丧失了安全拒绝能力。相反,如果在施加顺从方向后再额外注入拒绝方向,则只有在模型的后期层(而非早期层)才能观察到拒绝行为的部分恢复。
进一步的控制实验表明,在后期层的特定窗口内去除顺从个性方向,可以将拒绝率恢复至接近基线的水平;而随机去除一个无关方向则没有效果。这一模式强烈表明,拒绝行为的计算发生在模型的早期层,但其最终表达却在后期层受到顺从个性方向的严格门控。简而言之,拒绝是角色个性的下游产物,而非一个完全独立的可分离模块。
该发现对当前大语言模型的安全对齐研究具有重要启示。传统上,研究者倾向于将拒绝行为视作一个可单独激活的特征方向,并通过直接操作该方向来增强或绕过安全机制。然而,这项研究证明,拒绝的效果高度依赖于模型的内在个性表征——一个顺从而又乐于助人的模型可能会在后期表达阶段丧失拒绝能力,即使早期层已经计算出了拒绝信号。
论文的作者指出,未来在设计更具鲁棒性的安全机制时,必须考虑个性因素的调控作用。同时,这也为解释为什么某些越狱提示词可以绕过安全限制提供了新的视角:它们可能通过诱发模型的“顺从个性”来间接抑制拒绝。后续研究可以进一步探索不同个性维度(如攻击性、同理心等)如何与安全机制相互作用。