2024-11-11 00:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

用自然語言部分重寫LLM

本文探討了使用稀疏自編碼器（SAE）潛在變量的自然語言解釋來模擬LLM中的激活。作者發現，當前解釋能正確識別不到50%的活躍潛在變量，儘管特異性很高，但由於活躍與非活躍潛在變量的極端不平衡，導致大量誤報。根據解釋預測激活值的相關性很弱。結果表明，自然語言解釋還不足以可靠地模擬模型激活。

來源EleutherAI Blog

EleutherAI 的最新研究探討了使用稀疏自編碼器（SAE）潛在變量的自然語言解釋來模擬大語言模型（LLM）的激活。研究團隊將問題分解為三個子任務：正確識別活躍潛在變量、正確識別非活躍潛在變量，以及正確模擬活躍潛在變量的激活值。實驗表明，當前技術無法在不顯著降低模型性能的情況下用自然語言重寫 LLM 的整個層。

在對 Gemma 2 9b 模型的測試中，完全替換 SAE 編碼器為自然語言模擬幾乎完全破壞了模型性能。通過分析，研究人員發現僅需正確識別 50% 的頂部活躍潛在變量即可恢復大部分交叉熵損失，但隨機採樣時則需要識別大多數潛在變量。然而，使用當前解釋方法時，模型僅能正確識別不到 50% 的活躍潛在變量，且這一比例隨激活值降低而下降。儘管特異性超過 90%，但由於活躍與非活躍潛在變量的極端數量差異（每個 token 約 50 個活躍，共 13.1 萬個潛在變量），90% 的特異性仍會導致約 1.3 萬個誤報，遠高於實際活躍數量。要避免誤報，特異性需達到 99.9% 以上。

此外，研究團隊嘗試了不同方法提升敏感度，包括使用更大的 70B 模型、微調 8B 模型，以及引入模糊分數和檢測分數。提供分數信息使敏感度提升至約 58%，但仍未超過 50% 的閾值。在激活值預測方面，模型僅能給出與真實值極弱的相關性（皮爾遜相關係數 0.1-0.2），表明當前解釋無法捕捉潛在變量的量化行為。

結論指出，自然語言解釋目前尚不足以替代 SAE 編碼器。未來工作需專注於提高非活躍潛在變量的識別精度，並開發更好的評分方法來評估和改進解釋質量。研究者強調，儘管存在侷限性，這些實驗為理解解釋的可靠性提供了重要見解，例如通過分析誤分類的潛在變量模式來改進解釋生成。