用自然語言部分重寫LLM
本文探討了使用稀疏自編碼器(SAE)潛在變量的自然語言解釋來模擬LLM中的激活。作者發現,當前解釋能正確識別不到50%的活躍潛在變量,儘管特異性很高,但由於活躍與非活躍潛在變量的極端不平衡,導致大量誤報。根據解釋預測激活值的相關性很弱。結果表明,自然語言解釋還不足以可靠地模擬模型激活。
EleutherAI 的最新研究探討了使用稀疏自編碼器(SAE)潛在變量的自然語言解釋來模擬大語言模型(LLM)的激活。研究團隊將問題分解為三個子任務:正確識別活躍潛在變量、正確識別非活躍潛在變量,以及正確模擬活躍潛在變量的激活值。實驗表明,當前技術無法在不顯著降低模型性能的情況下用自然語言重寫 LLM 的整個層。
在對 Gemma 2 9b 模型的測試中,完全替換 SAE 編碼器為自然語言模擬幾乎完全破壞了模型性能。通過分析,研究人員發現僅需正確識別 50% 的頂部活躍潛在變量即可恢復大部分交叉熵損失,但隨機採樣時則需要識別大多數潛在變量。然而,使用當前解釋方法時,模型僅能正確識別不到 50% 的活躍潛在變量,且這一比例隨激活值降低而下降。儘管特異性超過 90%,但由於活躍與非活躍潛在變量的極端數量差異(每個 token 約 50 個活躍,共 13.1 萬個潛在變量),90% 的特異性仍會導致約 1.3 萬個誤報,遠高於實際活躍數量。要避免誤報,特異性需達到 99.9% 以上。
此外,研究團隊嘗試了不同方法提升敏感度,包括使用更大的 70B 模型、微調 8B 模型,以及引入模糊分數和檢測分數。提供分數信息使敏感度提升至約 58%,但仍未超過 50% 的閾值。在激活值預測方面,模型僅能給出與真實值極弱的相關性(皮爾遜相關係數 0.1-0.2),表明當前解釋無法捕捉潛在變量的量化行為。
結論指出,自然語言解釋目前尚不足以替代 SAE 編碼器。未來工作需專注於提高非活躍潛在變量的識別精度,並開發更好的評分方法來評估和改進解釋質量。研究者強調,儘管存在侷限性,這些實驗為理解解釋的可靠性提供了重要見解,例如通過分析誤分類的潛在變量模式來改進解釋生成。