2024-11-11 00:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

用自然语言部分重写LLM

本文探讨了使用稀疏自编码器（SAE）潜在变量的自然语言解释来模拟LLM中的激活。作者发现，当前解释能正确识别不到50%的活跃潜在变量，尽管特异性很高，但由于活跃与非活跃潜在变量的极端不平衡，导致大量误报。根据解释预测激活值的相关性很弱。结果表明，自然语言解释还不足以可靠地模拟模型激活。

来源EleutherAI Blog

EleutherAI 的最新研究探讨了使用稀疏自编码器（SAE）潜在变量的自然语言解释来模拟大语言模型（LLM）的激活。研究团队将问题分解为三个子任务：正确识别活跃潜在变量、正确识别非活跃潜在变量，以及正确模拟活跃潜在变量的激活值。实验表明，当前技术无法在不显著降低模型性能的情况下用自然语言重写 LLM 的整个层。

在对 Gemma 2 9b 模型的测试中，完全替换 SAE 编码器为自然语言模拟几乎完全破坏了模型性能。通过分析，研究人员发现仅需正确识别 50% 的顶部活跃潜在变量即可恢复大部分交叉熵损失，但随机采样时则需要识别大多数潜在变量。然而，使用当前解释方法时，模型仅能正确识别不到 50% 的活跃潜在变量，且这一比例随激活值降低而下降。尽管特异性超过 90%，但由于活跃与非活跃潜在变量的极端数量差异（每个 token 约 50 个活跃，共 13.1 万个潜在变量），90% 的特异性仍会导致约 1.3 万个误报，远高于实际活跃数量。要避免误报，特异性需达到 99.9% 以上。

此外，研究团队尝试了不同方法提升敏感度，包括使用更大的 70B 模型、微调 8B 模型，以及引入模糊分数和检测分数。提供分数信息使敏感度提升至约 58%，但仍未超过 50% 的阈值。在激活值预测方面，模型仅能给出与真实值极弱的相关性（皮尔逊相关系数 0.1-0.2），表明当前解释无法捕捉潜在变量的量化行为。

结论指出，自然语言解释目前尚不足以替代 SAE 编码器。未来工作需专注于提高非活跃潜在变量的识别精度，并开发更好的评分方法来评估和改进解释质量。研究者强调，尽管存在局限性，这些实验为理解解释的可靠性提供了重要见解，例如通过分析误分类的潜在变量模式来改进解释生成。