AI News HubLIVE
站内改写1 分钟阅读

用自然语言部分重写LLM

本文探讨了使用稀疏自编码器(SAE)潜在变量的自然语言解释来模拟LLM中的激活。作者发现,当前解释能正确识别不到50%的活跃潜在变量,尽管特异性很高,但由于活跃与非活跃潜在变量的极端不平衡,导致大量误报。根据解释预测激活值的相关性很弱。结果表明,自然语言解释还不足以可靠地模拟模型激活。

EleutherAI 的最新研究探讨了使用稀疏自编码器(SAE)潜在变量的自然语言解释来模拟大语言模型(LLM)的激活。研究团队将问题分解为三个子任务:正确识别活跃潜在变量、正确识别非活跃潜在变量,以及正确模拟活跃潜在变量的激活值。实验表明,当前技术无法在不显著降低模型性能的情况下用自然语言重写 LLM 的整个层。

在对 Gemma 2 9b 模型的测试中,完全替换 SAE 编码器为自然语言模拟几乎完全破坏了模型性能。通过分析,研究人员发现仅需正确识别 50% 的顶部活跃潜在变量即可恢复大部分交叉熵损失,但随机采样时则需要识别大多数潜在变量。然而,使用当前解释方法时,模型仅能正确识别不到 50% 的活跃潜在变量,且这一比例随激活值降低而下降。尽管特异性超过 90%,但由于活跃与非活跃潜在变量的极端数量差异(每个 token 约 50 个活跃,共 13.1 万个潜在变量),90% 的特异性仍会导致约 1.3 万个误报,远高于实际活跃数量。要避免误报,特异性需达到 99.9% 以上。

此外,研究团队尝试了不同方法提升敏感度,包括使用更大的 70B 模型、微调 8B 模型,以及引入模糊分数和检测分数。提供分数信息使敏感度提升至约 58%,但仍未超过 50% 的阈值。在激活值预测方面,模型仅能给出与真实值极弱的相关性(皮尔逊相关系数 0.1-0.2),表明当前解释无法捕捉潜在变量的量化行为。

结论指出,自然语言解释目前尚不足以替代 SAE 编码器。未来工作需专注于提高非活跃潜在变量的识别精度,并开发更好的评分方法来评估和改进解释质量。研究者强调,尽管存在局限性,这些实验为理解解释的可靠性提供了重要见解,例如通过分析误分类的潜在变量模式来改进解释生成。