2025-05-31 06:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

產品鍵記憶稀疏編碼器

EleutherAI的研究團隊探索了使用產品鍵記憶（PKM）技術來改進稀疏編碼器的效能。實驗表明，PKM轉換器在訓練速度和可解釋性方面具有優勢，尤其適用於中等擴充套件因子。儘管在某些情況下PKM轉換器能與TopK轉換器競爭，但在極大擴充套件因子下基線模型表現更好。

來源EleutherAI Blog

EleutherAI的研究團隊近期發表了一篇部落格文章，深入探討了如何利用產品鍵記憶（PKM）技術來改進稀疏編碼器。稀疏編碼器在AI模型的可解釋性和特徵提取中扮演著關鍵角色，但較高的重建誤差一直是其面臨的挑戰。傳統的TopK稀疏編碼器透過啟用函式選擇最活躍的特徵，但其編碼器部分引數眾多、計算量大。PKM透過將輸入維度分解為兩個子空間，並考慮所有可能的半權重組合，從而在保持搜尋速度的同時實現更大的潛在特徵空間，有效降低了編碼器的引數數量。

實驗基於SmolLM 2 135M模型，對多個層進行了訓練，比較了PKM轉換器與常規跳躍轉換器（SST）的效能。結果發現，當擴充套件因子（特徵數量與輸入維度之比）達到256倍時，PKM轉換器的訓練速度仍快於同等重建質量的TopK模型。然而，當擴充套件因子進一步增加到512倍時，PKM的訓練時間顯著增加，且重建損失不如同規模的SST。PKM編碼器引數更少，使得訓練時可以使用更大的批次，但極大擴充套件因子會迫使批次縮小，部分抵消了這一優勢。

在可解釋性方面，PKM轉換器表現更為突出。研究團隊使用Llama 3.1 70B模型進行自動解釋評估，PKM的檢測和模糊得分均高於基線模型。此外，PKM的潛在特徵天然形成分組，同一組的特徵方向和解釋文本相似度更高，這為特徵分析提供了便利。研究程式碼和模型已全部開源，團隊期望這些發現能推動稀疏編碼器技術的發展。