AI News HubLIVE
站内改写1 分钟阅读

产品键记忆稀疏编码器

EleutherAI的研究团队探索了使用产品键记忆(PKM)技术来改进稀疏编码器的性能。实验表明,PKM转换器在训练速度和可解释性方面具有优势,尤其适用于中等扩展因子。尽管在某些情况下PKM转换器能与TopK转换器竞争,但在极大扩展因子下基线模型表现更好。

EleutherAI的研究团队近期发表了一篇博客文章,深入探讨了如何利用产品键记忆(PKM)技术来改进稀疏编码器。稀疏编码器在AI模型的可解释性和特征提取中扮演着关键角色,但较高的重建误差一直是其面临的挑战。传统的TopK稀疏编码器通过激活函数选择最活跃的特征,但其编码器部分参数众多、计算量大。PKM通过将输入维度分解为两个子空间,并考虑所有可能的半权重组合,从而在保持搜索速度的同时实现更大的潜在特征空间,有效降低了编码器的参数数量。

实验基于SmolLM 2 135M模型,对多个层进行了训练,比较了PKM转换器与常规跳跃转换器(SST)的性能。结果发现,当扩展因子(特征数量与输入维度之比)达到256倍时,PKM转换器的训练速度仍快于同等重建质量的TopK模型。然而,当扩展因子进一步增加到512倍时,PKM的训练时间显著增加,且重建损失不如同规模的SST。PKM编码器参数更少,使得训练时可以使用更大的批量,但极大扩展因子会迫使批量缩小,部分抵消了这一优势。

在可解释性方面,PKM转换器表现更为突出。研究团队使用Llama 3.1 70B模型进行自动解释评估,PKM的检测和模糊得分均高于基线模型。此外,PKM的潜在特征天然形成分组,同一组的特征方向和解释文本相似度更高,这为特征分析提供了便利。研究代码和模型已全部开源,团队期望这些发现能推动稀疏编码器技术的发展。