用自然語言部分重寫LLM
本文探討了使用稀疏自編碼器(SAE)潛在變數的自然語言解釋來模擬LLM中的啟用。作者發現,當前解釋能正確識別不到50%的活躍潛在變數,儘管特異性很高,但由於活躍與非活躍潛在變數的極端不平衡,導致大量誤報。根據解釋預測啟用值的相關性很弱。結果表明,自然語言解釋還不足以可靠地模擬模型啟用。
EleutherAI 的最新研究探討了使用稀疏自編碼器(SAE)潛在變數的自然語言解釋來模擬大語言模型(LLM)的啟用。研究團隊將問題分解為三個子任務:正確識別活躍潛在變數、正確識別非活躍潛在變數,以及正確模擬活躍潛在變數的啟用值。實驗表明,當前技術無法在不顯著降低模型效能的情況下用自然語言重寫 LLM 的整個層。
在對 Gemma 2 9b 模型的測試中,完全替換 SAE 編碼器為自然語言模擬幾乎完全破壞了模型效能。透過分析,研究人員發現僅需正確識別 50% 的頂部活躍潛在變數即可恢復大部分交叉熵損失,但隨機取樣時則需要識別大多數潛在變數。然而,使用當前解釋方法時,模型僅能正確識別不到 50% 的活躍潛在變數,且這一比例隨啟用值降低而下降。儘管特異性超過 90%,但由於活躍與非活躍潛在變數的極端數量差異(每個 token 約 50 個活躍,共 13.1 萬個潛在變數),90% 的特異性仍會導致約 1.3 萬個誤報,遠高於實際活躍數量。要避免誤報,特異性需達到 99.9% 以上。
此外,研究團隊嘗試了不同方法提升敏感度,包括使用更大的 70B 模型、微調 8B 模型,以及引入模糊分數和檢測分數。提供分數資訊使敏感度提升至約 58%,但仍未超過 50% 的閾值。在啟用值預測方面,模型僅能給出與真實值極弱的相關性(皮爾遜相關係數 0.1-0.2),表明當前解釋無法捕捉潛在變數的量化行為。
結論指出,自然語言解釋目前尚不足以替代 SAE 編碼器。未來工作需專注於提高非活躍潛在變數的識別精度,並開發更好的評分方法來評估和改進解釋質量。研究者強調,儘管存在侷限性,這些實驗為理解解釋的可靠性提供了重要見解,例如透過分析誤分類的潛在變數模式來改進解釋生成。