モデルは安全表現を共有するか?クロスモデルステアリングによる安全なビジュアル生成
研究者らは、ソースLLMからターゲットの画像/動画生成器へ、軽量なアライメントを介して安全方向を転送するクロスモデル安全ステアリングフレームワークを提案。ターゲット側の不安全データを必要とせず、安全性向上と生成品質の維持を両立する。
近年の生成モデルの急速な進歩により、安全性の制御は中心的な課題となっています。既存のアプローチはモデル固有であり、新しいアーキテクチャごとに再トレーニングやカスタマイズされた介入が必要で、非効率的です。本研究では、安全性をポータブルな潜在方向として表現し、一度学習すれば異種の生成器間で再利用できるかどうかを問います。
研究チームは、クロスモデル安全ステアリングのための初のフレームワークを導入しました。このフレームワークでは、ソース大規模言語モデルにおいて安全・不安全なプロンプトのペアから安全方向を推定します。次に、良性データのみで適合させた軽量なアライメントモジュールを介して、その安全方向をターゲット生成器に転送し、推論時に適用します。重要なのは、パイプラインがターゲット側の不安全データに一切アクセスしない点であり、安全性が共有表現幾何学を通じて転移可能かどうかを検証できるようにしています。
単一のグローバル方向に加えて、マルチベクトル拡張も提案されています。これにより、カテゴリ固有の安全行動を捉え、より選択的な制御が可能になります。例えば、暴力やポルノなどの異なる不安全カテゴリに対して個別の安全方向を設定し、過剰フィルタリングを避けることができます。著者らは、テキストから画像、テキストから動画の生成タスクにおいて、多様なソース・ターゲットモデルペアで評価を行いました。
実験結果は、転送された安全方向が、ターゲットモデルで不安全データを用いてネイティブに学習された方向と同等のASR低減とCLIP-Score/FIDトレードオフを達成し、ターゲット側の不安全データを必要としないことを示しています。これは安全性の向上が生成品質を犠牲にしないことを意味します。さらに、マルチベクトル拡張により制御の精度が向上しました。
これらの結果は、安全性に関連する振る舞いが純粋にモデルローカルではなく、モデル間で持続する潜在方向によって制御可能であるというモジュール的な安全性の見方を示唆しています。これは、ターゲット側の不安全データを必要としない軽量で再利用可能な安全メカニズムへの新たな道筋を開き、様々な生成モデルへの広範な応用が期待されます。