同じデータで訓練されたSAEは同じ特徴を学習しない
研究によると、異なるランダムシードで同じデータとバッチ順序で訓練されたTopKスパースオートエンコーダー(SAE)は、学習した特徴の約53%しか共有していません。共有されていない潜在変数の多くは解釈可能です。狭いSAEは特徴の重複が高く、SAEのサイズが大きくなるにつれて重複は減少します。この現象は特徴分割と吸収の理論と一致しており、SAEが普遍的な特徴セットを発見しないことを示しています。
EleutherAIの研究者らは、同じデータとバッチ順序を使用しながら異なるランダムシードで訓練されたTopKスパースオートエンコーダー(SAE)が、同じ特徴を学習しないことを発見しました。この研究は、SAEによる特徴発見の非決定性を強調し、モデルの解釈可能性に重要な影響を与えます。
研究チームは、Pythia-160mモデルの6番目のMLP層に対して異なるサイズのSAEを訓練しました。すべてのSAEは同じデータ順序を使用しましたが、各サイズで異なるランダムシードを持つ2つのSAEを訓練しました。彼らはハンガリアンアルゴリズムを使用して潜在特徴間のマッチングを計算し、エンコーダー/デコーダーベクトルの平均コサイン類似度でアライメントを測定しました。その結果、2つのSAE間で共有される潜在特徴は約53%のみでした(コサイン類似度>0.7、かつエンコーダーとデコーダーのマッチングが一致)。3つ目のSAEを導入すると、SAE1とSAE2で共有された特徴の大部分はSAE3にも存在しましたが、35%の特徴は単一のSAEにのみ存在しました。
さらに分析を進めると、頻繁に活性化する潜在特徴は共有される傾向があり、まれに活性化する特徴はユニークであることがわかりました。研究者はこれを特徴分割/吸収の証拠と考えています:異なるシードが異なるトークン/概念の吸収を引き起こし、異なる特徴セットを生み出します。興味深いことに、共有されない潜在特徴も高い解釈可能性を示すことが多く、7,000以上の潜在特徴に対する自動解釈の平均スコアは0.72で、高スコアの特徴の多くはシード間の類似度が低いものでした。
研究ではまた、SAEのサイズが特徴の重複に影響することも明らかになりました:潜在特徴数8000のSAEでは約60%の特徴が共有されるのに対し、131,000のSAEでは約30%しか共有されません。さらに、解釈スコアが低い潜在特徴は活性化頻度が高く、シード間の類似度も低い傾向がありました。
これらの結果は、SAEが普遍的な特徴セットを発見するという考えに疑問を投げかけます。研究者は、特徴発見を構成問題として捉えるべきだと提案しています。つまり、入力空間をカテゴリに分割する有用な方法を探し、それらのカテゴリ自体をさらに細かいカテゴリに階層的に分割するというアプローチです。研究はTopK SAEに限定されていますが、JumpReLU SAEでも同様の結果が得られると推測されています。伝統的なL1正則化ReLU SAEはより普遍性を示す可能性がありますが、スパース性の最適化が不十分なため近年はあまり使用されていません。
この研究は、非凸損失関数下での深層学習モデルの解釈可能性に重要な洞察を提供し、ランダムな初期化がまったく異なる内部表現を生み出す可能性があるため、SAEを使用したモデル分析には注意が必要であることを示しています。