単一方向を超えた拒否:Diff-in-MeansとINLPの予備比較
新しい論文は、安全性に微調整されたチャットモデルにおける拒否行動の制御について、Diff-in-Means(DiM)とIterative Nullspace Projection(INLP)を比較しています。研究では、INLPの反事実的フリッピングがDiMの方向的アブレーションと拒否抑制において競合する一方、ヌルスペース投影は一貫して弱いことがわかりました。INLPを主要方向に制限することで、抑制効果をほぼ維持し、ベースラインパープレキシティに近い状態で調整可能な能力が得られます。また、2つのINLP介入は活性化空間の質的に異なる領域に着地し、モデルが概念の「欠如」と「反対」を異なる方法で符号化していることを示唆しています。
Elisabetta Rocchetti氏らによってarXivに提出された新しい論文(arXiv:2606.13720)では、安全性に微調整されたチャットモデルにおける拒否行動を誘導するための2つの手法が比較されています。先行研究(Arditi et al., 2024)では、拒否応答が残差ストリーム内の単一の線形方向によって媒介され、その方向は有害活性と無害活性の差分平均(DiM)によって抽出可能であることが示されました。この発見は、活性化追加や方向アブレーションなどのDiMベースの介入を促しましたが、これらの手法は単一方向に制限されており、拒否行動の複雑さを完全に捉えられない可能性があります。
本研究では、DiMに基づく介入(アクティベーション追加と方向的アブレーション)と、反復ヌル空間投影(INLP)に基づく2つの介入(ヌル空間投影と反事実的フリッピング)を、5つのオープンウェイトチャットモデル上で比較しました。主な問いは、INLPがDiMと同等の拒否制御性能を達成できるかどうか、またその豊かなパラメータ化によりより調整可能な介入が可能かどうかです。実験では、多様なモデルサイズとアーキテクチャが使用され、手法の汎用性が評価されました。
実験の結果、拒否抑制タスクにおいて、INLPの反事実的フリッピングはDiMの方向的アブレーションと競合する性能を示しました。両手法とも、有害なプロンプトに対するモデルの拒否率を効果的に低下させることができました。一方、ヌル空間投影は一貫して弱い結果となり、抑制効果は他の手法に比べて大幅に低いものでした。興味深いことに、INLPを抽出された部分空間の主要方向に制限すると、抑制効果の大部分が保持され、パープレキシティはベースラインに近い値となり、調整可能な能力が得られることがわかりました。これは、研究者が主方向の数を選択することで抑制の強さと言語品質のバランスを調整できることを意味します。
幾何学的には、2つのINLP介入は活性化空間の質的に異なる領域に着地します。ヌル空間投影は変換された活性化を有害クラスターと無害クラスターの間に崩壊させる一方、反事実的フリッピングはそれらを反対のクラスターに移動させます。これは、モデルが概念の「欠如」と「反対」を異なる方法で符号化していることを示唆しており、前者はヌル空間投影の効果に対応し、後者は反事実的フリッピングに対応します。この幾何学的な区別は、モデル内部の表現の微妙な違いを明らかにし、将来のより精密な介入戦略の設計に理論的基盤を提供します。
本論文は、言語モデルにおける拒否メカニズムの理解に新たな視点を提供し、単一方向の手法よりも柔軟な介入ツールとしてINLPの可能性を示しています。今後の研究では、さまざまなタスクやモデルにおけるINLPの性能をさらに探求し、複数の介入方法を組み合わせてより正確な行動制御を実現することが期待されます。また、概念の欠如と反対の区別は、モデル行動の解釈に新たな方向性をもたらします。