超越單一方向的拒絕:差異均值法與INLP的初步比較
一篇新論文比較了差異均值法(DiM)和迭代空空間投影法(INLP)在安全微調聊天模型中引導拒絕行為的效果。研究發現,INLP反事實翻轉在拒絕抑制方面與DiM定向消融相當,而空空間投影則較弱。將INLP限制在主要方向可以保持抑制效果且困惑度接近基線,兩種干預方法落入啟用空間的不同區域,表明模型對概念缺失與相反概念有不同的編碼。
一篇由Elisabetta Rocchetti等人提交至arXiv的新論文(arXiv:2606.13720)對兩種用於引導安全微調聊天模型拒絕行為的方法進行了比較。此前,Arditi等人(2024年)的研究表明,模型是否拒絕回答有害問題,在很大程度上由殘差流中一個單一的線性方向所決定,該方向可以透過計算有害與無害啟用的均值差異(DiM)來獲取。這一發現啟發了多種基於DiM的干預方法,包括啟用新增和定向消融。然而,這些方法受限於單一方向,可能無法捕捉拒絕行為的全部複雜性。
本研究將DiM的兩種干預方式——啟用新增(activation addition)和定向消融(directional ablation)——與基於迭代空空間投影(INLP)的兩種干預——空空間投影(nullspace projection)和反事實翻轉(counterfactual flipping)——在五個開源聊天模型上進行了系統比較。研究的核心問題是:INLP是否能夠達到與DiM相當的拒絕引導效果,以及其更豐富的引數化是否提供了更靈活的調優能力。實驗涉及多種模型規模和架構,以評估方法的通用性。
實驗結果顯示,在拒絕抑制任務上,INLP的反事實翻轉與DiM的定向消融表現出競爭力,兩者均能有效降低模型對有害提示的拒絕率。相反,空空間投影則始終較弱,其抑制效果遠不如其他方法。有趣的是,如果將INLP限制在提取子空間的主要方向上,大多數抑制效果得以保留,同時困惑度幾乎與基線持平,這表明該方法提供了一種可調節的干預能力。這意味著研究人員可以透過選擇主方向的數量來權衡抑制強度與語言質量。
從幾何角度看,兩種INLP干預在啟用空間中落入了性質截然不同的區域。空空間投影將變換後的啟用壓縮到有害與無害聚類之間的區域,而反事實翻轉則將它們移動到相反的聚類中。這一現象暗示,模型對“概念缺失”與“概念相反”的編碼方式是不同的——前者對應空空間投影的效果,後者對應反事實翻轉。這種幾何上的區分揭示了模型內部表徵的微妙差異,為未來設計更精細的干預策略提供了理論基礎。
這篇論文為理解語言模型中的拒絕機制提供了新的視角,並展示了INLP作為一種比單方向方法更靈活的干預工具的可能性。未來的工作可以進一步探索INLP在不同任務和模型上的表現,以及如何結合多種干預方法實現更精確的行為控制。此外,研究中對概念缺失與相反概念的區分也為解釋模型行為開闢了新方向。