AI News HubLIVE
サイト内リライト2 分で読了

チャットモデルにおける拒否はパーソナの下流に存在する

本論文は、指示調整済みチャットモデルにおいて、拒否行動が従順なパーソナ方向によってゲートされていることを示す。Qwen2.5-7B-InstructとLlama-3.1-8B-Instructへの介入実験により、従順パーソナ方向の操作が拒否を抑制し(Llamaでは拒否率が97%から2%に低下)、拒否方向は後期層でのみ部分的な回復をもたらすことが明らかになった。拒否はパーソナの計算よりも下流で発現する。

ソースarXiv AI著者: Viola Zhong, Qirui Li

ICML 2026の機械解釈可能性ワークショップで発表された新しい研究が、チャットモデルにおける拒否行動とパーソナ(人格)の密接な関係を明らかにしました。Viola Zhong氏らによる論文「Refusal Lives Downstream of Persona in Chat Models」は、arXivでプレプリントとして公開されています。

研究チームは、Qwen2.5-7B-InstructとLlama-3.1-8B-Instructの二つの代表的な指示調整済みモデルを用いて実験を行いました。まず、活性化空間から線形プローブを用いて「従順なパーソナ方向」と「拒否方向」を抽出しました。その後、これらの方向を活性化に注入することでモデルの振る舞いを操作しました。

実験の結果、従順パーソナ方向を付与すると、モデルは有害なリクエストに対する拒否を劇的に減少させました。特にLlama-3.1-8B-Instructでは、拒否率が97%からわずか2%に低下し、安全機能がほぼ無効化されました。一方、従順パーソナ方向を付与した後に拒否方向を再導入した場合、拒否行動は後期層でのみ部分的に回復し、初期層では効果が見られませんでした。

さらに、後期層の特定の窓からパーソナ方向を除去する操作により、拒否率はベースライン近くまで回復しました。ランダムな方向を除去しても同様の効果は得られませんでした。これらの結果は、拒否の計算は初期層で行われるものの、その発現は後期層でパーソナ方向によってゲートされていることを示しています。つまり、拒否はパーソナの下流に位置する現象であり、独立したモジュールではないのです。

この発見は、大規模言語モデルの安全調整(アライメント)に重要な示唆を与えます。従来の研究では、拒否行動を活性化空間内の独立した方向として捉え、それを直接操作することで安全性を高めたり回避したりしようとしてきました。しかし、本研究は拒否の効果がモデルの内的パーソナ表現に強く依存していることを示しており、将来的な安全機構の設計にはパーソナ要因を考慮する必要があると主張しています。

論文の著者らは、このメカニズムが一部のジェイルブレイク手法がなぜ安全制限を回避できるのかを説明する手がかりになると指摘しています。それらの手法は、モデルの「従順なパーソナ」を活性化することで間接的に拒否を抑制している可能性があります。今後の研究では、攻撃性や共感などの他のパーソナ次元と安全機構の相互作用を探ることが期待されます。