在同一資料上訓練的SAE不會學到相同的特徵
研究表明,使用不同隨機種子但相同資料和批次順序訓練的TopK稀疏自編碼器(SAE),其學習到的潛在特徵僅有約53%是共享的。未共享的特徵中許多是可解釋的。較窄的SAE特徵重疊較高,而隨著SAE規模增大,重疊降低。這一現象與特徵分裂和吸收理論一致,表明SAE並未發現“通用”特徵集。
EleutherAI的研究人員發現,使用相同資料和批次順序但不同隨機種子訓練的TopK稀疏自編碼器(SAE)不會學到相同的特徵。這項研究強調了SAE在發現特徵時的非確定性,並提出了對模型可解釋性的重要影響。
研究團隊對Pythia-160m模型第六層MLP訓練了不同規模的SAE,所有SAE使用相同的資料順序,但每個規模訓練兩個不同隨機種子的SAE。他們利用匈牙利演算法計算潛在特徵之間的匹配,透過平均編碼器/解碼器向量的餘弦相似度來衡量對齊程度。結果顯示,只有約53%的潛在特徵在兩個SAE之間是共享的(餘弦相似度>0.7且編碼器與解碼器匹配一致)。當引入第三個SAE時,大部分在SAE1和SAE2中共享的特徵也在SAE3中出現,但仍有35%的特徵僅在單個SAE中存在。
進一步分析表明,頻繁啟用的潛在特徵更可能是共享的,而罕見的啟用特徵更可能是獨特的。研究者認為這可能是特徵分裂/吸收的證據:不同種子導致不同標記/概念的吸收,從而產生不同的特徵集。有趣的是,即使未共享的潛在特徵也往往具有良好的可解釋性。對7000多個潛在特徵進行自動解釋後,平均解釋得分為0.72,其中許多得分高的特徵在不同種子間相似度較低。
研究還發現,SAE規模影響特徵重疊:從8000到131000潛在特徵的SAE中,較大SAE的特徵重疊比例較低。例如,8000潛在特徵的SAE有約60%的特徵共享,而131000潛在特徵的SAE只有約30%的特徵共享。同時,自動解釋得分低的潛在特徵通常啟用頻率更高,且在不同種子間相似度低。
這些結果挑戰了SAE能夠發現通用特徵集的假設。研究者認為特徵發現應被視為組合問題,即尋找將輸入空間劃分為類別的有用方式,而這些類別本身可以進一步劃分為更細的類別。儘管研究僅限於TopK SAE,他們推測JumpReLU SAE也會得到類似結果。傳統的L1正則化ReLU SAE可能表現出更強的普適性,但由於其稀疏性最佳化不足,近年已不太常用。
這項研究為非凸損失函式下深度學習模型的可解釋性提供了重要見解,表明隨機初始化可以導致截然不同的內部表示,這在使用SAE進行模型分析時需要謹慎對待。