2024-11-11 00:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

用自然語言部分重寫LLM

本文探討了使用稀疏自編碼器（SAE）潛在變數的自然語言解釋來模擬LLM中的啟用。作者發現，當前解釋能正確識別不到50%的活躍潛在變數，儘管特異性很高，但由於活躍與非活躍潛在變數的極端不平衡，導致大量誤報。根據解釋預測啟用值的相關性很弱。結果表明，自然語言解釋還不足以可靠地模擬模型啟用。

來源EleutherAI Blog

EleutherAI 的最新研究探討了使用稀疏自編碼器（SAE）潛在變數的自然語言解釋來模擬大語言模型（LLM）的啟用。研究團隊將問題分解為三個子任務：正確識別活躍潛在變數、正確識別非活躍潛在變數，以及正確模擬活躍潛在變數的啟用值。實驗表明，當前技術無法在不顯著降低模型效能的情況下用自然語言重寫 LLM 的整個層。

在對 Gemma 2 9b 模型的測試中，完全替換 SAE 編碼器為自然語言模擬幾乎完全破壞了模型效能。透過分析，研究人員發現僅需正確識別 50% 的頂部活躍潛在變數即可恢復大部分交叉熵損失，但隨機取樣時則需要識別大多數潛在變數。然而，使用當前解釋方法時，模型僅能正確識別不到 50% 的活躍潛在變數，且這一比例隨啟用值降低而下降。儘管特異性超過 90%，但由於活躍與非活躍潛在變數的極端數量差異（每個 token 約 50 個活躍，共 13.1 萬個潛在變數），90% 的特異性仍會導致約 1.3 萬個誤報，遠高於實際活躍數量。要避免誤報，特異性需達到 99.9% 以上。

此外，研究團隊嘗試了不同方法提升敏感度，包括使用更大的 70B 模型、微調 8B 模型，以及引入模糊分數和檢測分數。提供分數資訊使敏感度提升至約 58%，但仍未超過 50% 的閾值。在啟用值預測方面，模型僅能給出與真實值極弱的相關性（皮爾遜相關係數 0.1-0.2），表明當前解釋無法捕捉潛在變數的量化行為。

結論指出，自然語言解釋目前尚不足以替代 SAE 編碼器。未來工作需專注於提高非活躍潛在變數的識別精度，並開發更好的評分方法來評估和改進解釋質量。研究者強調，儘管存在侷限性，這些實驗為理解解釋的可靠性提供了重要見解，例如透過分析誤分類的潛在變數模式來改進解釋生成。