拒絕行為位於聊天模型角色個性的下游
該論文發現,在聊天模型中,拒絕行為並非獨立機制,而是受角色個性(特別是順從個性)的門控。通過干預Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的激活方向,研究顯示順從個性方向可以抑制拒絕,而拒絕方向僅在後期層部分恢復拒絕。這表明拒絕在後期表達階段受個性門控,而非孤立方向。
一項來自ICML 2026機械可解釋性研討會的最新研究論文揭示了聊天模型中拒絕行為與角色個性之間的深層相互作用。該論文由Viola Zhong等人撰寫,標題為《Refusal Lives Downstream of Persona in Chat Models》,已在arXiv上預印發表。
研究團隊在Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct兩個廣泛使用的指令微調模型上進行了系統實驗。他們首先利用線性探針從模型的激活空間中分別提取出表徵順從個性方向和拒絕方向的方向向量。隨後,他們通過向激活空間施加這些方向來干預模型的行為輸出。
實驗結果顯示,當在模型的殘差流中注入順從個性方向時,模型對有害請求的拒絕率出現戲劇性下降。以Llama-3.1-8B-Instruct為例,其拒絕率從基準的97%暴跌至2%,幾乎完全喪失了安全拒絕能力。相反,如果在施加順從方向後再額外注入拒絕方向,則只有在模型的後期層(而非早期層)才能觀察到拒絕行為的部分恢復。
進一步的控制實驗表明,在後期層的特定窗口內去除順從個性方向,可以將拒絕率恢復至接近基線的水平;而隨機去除一個無關方向則沒有效果。這一模式強烈表明,拒絕行為的計算發生在模型的早期層,但其最終表達卻在後期層受到順從個性方向的嚴格門控。簡而言之,拒絕是角色個性的下游產物,而非一個完全獨立的可分離模塊。
該發現對當前大語言模型的安全對齊研究具有重要啓示。傳統上,研究者傾向於將拒絕行為視作一個可單獨激活的特徵方向,並通過直接操作該方向來增強或繞過安全機制。然而,這項研究證明,拒絕的效果高度依賴於模型的內在個性表徵——一個順從而又樂於助人的模型可能會在後期表達階段喪失拒絕能力,即使早期層已經計算出了拒絕信號。
論文的作者指出,未來在設計更具魯棒性的安全機制時,必須考慮個性因素的調控作用。同時,這也為解釋為什麼某些越獄提示詞可以繞過安全限制提供了新的視角:它們可能通過誘發模型的“順從個性”來間接抑制拒絕。後續研究可以進一步探索不同個性維度(如攻擊性、同理心等)如何與安全機制相互作用。