產品鍵記憶稀疏編碼器
EleutherAI的研究團隊探索了使用產品鍵記憶(PKM)技術來改進稀疏編碼器的效能。實驗表明,PKM轉換器在訓練速度和可解釋性方面具有優勢,尤其適用於中等擴充套件因子。儘管在某些情況下PKM轉換器能與TopK轉換器競爭,但在極大擴充套件因子下基線模型表現更好。
EleutherAI的研究團隊近期發表了一篇部落格文章,深入探討了如何利用產品鍵記憶(PKM)技術來改進稀疏編碼器。稀疏編碼器在AI模型的可解釋性和特徵提取中扮演著關鍵角色,但較高的重建誤差一直是其面臨的挑戰。傳統的TopK稀疏編碼器透過啟用函式選擇最活躍的特徵,但其編碼器部分引數眾多、計算量大。PKM透過將輸入維度分解為兩個子空間,並考慮所有可能的半權重組合,從而在保持搜尋速度的同時實現更大的潛在特徵空間,有效降低了編碼器的引數數量。
實驗基於SmolLM 2 135M模型,對多個層進行了訓練,比較了PKM轉換器與常規跳躍轉換器(SST)的效能。結果發現,當擴充套件因子(特徵數量與輸入維度之比)達到256倍時,PKM轉換器的訓練速度仍快於同等重建質量的TopK模型。然而,當擴充套件因子進一步增加到512倍時,PKM的訓練時間顯著增加,且重建損失不如同規模的SST。PKM編碼器引數更少,使得訓練時可以使用更大的批次,但極大擴充套件因子會迫使批次縮小,部分抵消了這一優勢。
在可解釋性方面,PKM轉換器表現更為突出。研究團隊使用Llama 3.1 70B模型進行自動解釋評估,PKM的檢測和模糊得分均高於基線模型。此外,PKM的潛在特徵天然形成分組,同一組的特徵方向和解釋文本相似度更高,這為特徵分析提供了便利。研究程式碼和模型已全部開源,團隊期望這些發現能推動稀疏編碼器技術的發展。