自然言語によるLLMの部分的な書き換え
本研究では、スパースオートエンコーダ(SAE)の潜在変数の自然言語解釈を使用して、LLMの活性化をシミュレートすることを探求しています。著者らは、現在の解釈では活性化している潜在変数の50%未満しか識別できず、特異度は高いものの、活性化している潜在変数とそうでないものの極端な不均衡により多くの誤検出が生じることを発見しました。解釈から活性化値を予測する相関は弱いです。結果は、自然言語解釈がモデルの活性化をシミュレートするにはまだ信頼性が低いことを示しています。
EleutherAIの最新研究では、スパースオートエンコーダ(SAE)の潜在変数に対する自然言語解釈を用いて、大規模言語モデル(LLM)の活性化をシミュレートすることを試みています。研究チームは問題を3つのサブタスクに分解しました:活性化している潜在変数の正確な識別、活性化していない潜在変数の正確な識別、そして活性化している潜在変数の活性化値の正確なシミュレーションです。実験の結果、現在の技術では、モデルの性能を大幅に低下させることなく、LLMの層全体を自然言語で書き換えることは不可能であることが示されました。
Gemma 2 9bモデルを用いたテストでは、SAEエンコーダを自然言語シミュレーションに完全に置き換えると、モデルの性能がほぼ完全に破壊されました。分析により、活性化している潜在変数のうちトップ50%を正確に識別できれば、クロスエントロピー損失の大部分を回復できることが分かりましたが、ランダムサンプリングの場合は大多数の潜在変数を正しく識別する必要があります。しかし、現在の解釈手法では、活性化している潜在変数の50%未満しか正しく識別できず、その割合は活性化値が低くなるにつれて低下します。特異度は90%を超えていますが、活性化している潜在変数(トークンあたり約50個)とそうでないもの(合計13.1万個)の極端な不均衡のため、90%の特異度では約1.3万個の偽陽性が発生し、実際の活性化数をはるかに上回ります。偽陽性を避けるには、特異度が99.9%以上必要です。
さらに、研究者らは感度を向上させるため、より大きな70Bモデルの使用、8Bモデルのファインチューニング、ファジングスコアと検出スコアの導入など、さまざまな手法を試みました。スコア情報を提供することで感度は約58%に向上しましたが、それでも50%の閾値を超えませんでした。活性化値の予測に関しては、モデルは真の値との相関が非常に弱く(ピアソン相関係数0.1-0.2)、現在の解釈では潜在変数の量的な振る舞いを捉えられていないことを示しています。
結論として、自然言語解釈はまだSAEエンコーダの代替として信頼できるものではありません。今後の研究では、非活性潜在変数の識別精度を高め、解釈の品質を評価・改善するためのより高度なスコアリング手法の開発に焦点を当てる必要があります。研究者らは、限界はあるものの、これらの実験は誤分類された潜在変数のパターンを分析して解釈生成を改善するなど、解釈の信頼性を理解する上で重要な洞察を提供すると述べています。