Nous Research、対照ニューロン帰属(CNA)を発表:SAEトレーニングや重み変更不要のスパースMLP回路操作
Nous Researchは対照ニューロン帰属(CNA)をリリース。スパースなMLPニューロン回路を特定・除去することでLLMの動作を操作する手法で、スパースオートエンコーダーのトレーニングや重み変更は不要、汎用能力のベンチマークも低下させない。
記事インテリジェンス
要点
- CNAは有害プロンプトと良性プロンプトを最も区別する上位0.1%のMLPニューロンを順伝搬のみで特定。勾配計算や補助トレーニング、重み変更は不要。
- わずか0.1%のMLP活性化を除去することで、ほとんどのインストラクトモデル(Llama、Qwen 1B〜72B)で拒否率が50%以上低下し、出力品質は0.97以上、MMLU精度はベースラインから1%以内を維持。
- 重要な発見:有害プロンプトと良性プロンプトを識別する後期層構造は、ファインチューニング前のベースモデルに既に存在する。調整ファインチューニングは、その構造内のニューロンの機能をスパースで標的可能な拒否ゲートに変換する。
- CNAは操作効果と出力品質維持の両面で対照活性化追加(CAA)を上回る。
重要な理由
このニュースが重要なのは、CNAは有害プロンプトと良性プロンプトを最も区別する上位0.1%のMLPニューロンを順伝搬のみで特定。勾配計算や補助トレーニング、重み変更は不要ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Nous Researchチームは、大規模言語モデルの動作を精密に操作する新しい技術「対照ニューロン帰属(Contrastive Neuron Attribution, CNA)」を発表しました。CNAは、スパースなMLPニューロン回路を特定・除去することで、モデルに追加トレーニングや重み変更を施すことなく、特定の行動(例えば有害要求への拒否)を制御します。
既存の手法である対照活性化追加(CAA)は有効ですが、層全体の信号を粗く変更するため、強い介入時に出力品質が低下します。一方、スパースオートエンコーダー(SAE)は高価な外部トレーニングが必要で、活性化ノイズに敏感です。CNAは、勾配計算を必要とせず、数回の順伝搬のみで目的のニューロンを特定します。
CNAの手順は以下の通りです。(1) 対照的なプロンプトセット(例:有害要求と良性要求)を定義し、各プロンプトに対する最後のトークン位置でのMLPダウンプロジェクション活性化を記録。(2) ニューロンごとに活性化平均の差を計算。(3) 全層から絶対差が最大の上位0.1%のニューロンを選択。(4) 80%以上の多様なプロンプトで上位0.1%に入る「普遍的」なニューロンを除外。(5) 推論時に選択ニューロンの活性化にスカラー倍率を適用(m=0で除去、m>1で増幅)して因果関係を検証。
評価はLlama 3.1/3.2とQwen 2.5の1B〜72Bパラメータの16モデルで実施。JBB-Behaviorsベンチマークでは、ほとんどのインストラクトモデルで拒否率が50%以上低下しました。例えばQwen2.5-7B-Instructは87%から2%(-97.7%)、Llama-3.1-70B-Instructは86%から18%(-79.1%)に減少。出力品質は0.97以上、MMLU精度はベースラインから1%以内でした。
特筆すべき発見は、有害と良性を識別する後期層(最終10%の層)の構造が、ファインチューニング前のベースモデルに既に存在していた点です。アライメントファインチューニングは新しい構造を作るのではなく、その構造内のニューロンの機能をスパースな拒否ゲートに変換します。ベースモデルで同じ回路を除去しても行動変化は起こらず、コンテンツの話題が変わるだけですが、インストラクトモデルでは因果的なセーフティゲートとして機能します。
CNAは、Llama 3.1/3.2およびQwen 2.5の純粋なデコーダーアーキテクチャで検証されていますが、混合専門家モデルでは未検証です。ベースモデルでは除去による行動変化がないことから、この手法は主にインストラクトモデルの安全メカニズムの解明と制御に適しています。論文とコードは公開されており、将来的な拡張が期待されます。