2025-05-31 06:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

产品键记忆稀疏编码器

EleutherAI的研究团队探索了使用产品键记忆（PKM）技术来改进稀疏编码器的性能。实验表明，PKM转换器在训练速度和可解释性方面具有优势，尤其适用于中等扩展因子。尽管在某些情况下PKM转换器能与TopK转换器竞争，但在极大扩展因子下基线模型表现更好。

来源EleutherAI Blog

EleutherAI的研究团队近期发表了一篇博客文章，深入探讨了如何利用产品键记忆（PKM）技术来改进稀疏编码器。稀疏编码器在AI模型的可解释性和特征提取中扮演着关键角色，但较高的重建误差一直是其面临的挑战。传统的TopK稀疏编码器通过激活函数选择最活跃的特征，但其编码器部分参数众多、计算量大。PKM通过将输入维度分解为两个子空间，并考虑所有可能的半权重组合，从而在保持搜索速度的同时实现更大的潜在特征空间，有效降低了编码器的参数数量。

实验基于SmolLM 2 135M模型，对多个层进行了训练，比较了PKM转换器与常规跳跃转换器（SST）的性能。结果发现，当扩展因子（特征数量与输入维度之比）达到256倍时，PKM转换器的训练速度仍快于同等重建质量的TopK模型。然而，当扩展因子进一步增加到512倍时，PKM的训练时间显著增加，且重建损失不如同规模的SST。PKM编码器参数更少，使得训练时可以使用更大的批量，但极大扩展因子会迫使批量缩小，部分抵消了这一优势。

在可解释性方面，PKM转换器表现更为突出。研究团队使用Llama 3.1 70B模型进行自动解释评估，PKM的检测和模糊得分均高于基线模型。此外，PKM的潜在特征天然形成分组，同一组的特征方向和解释文本相似度更高，这为特征分析提供了便利。研究代码和模型已全部开源，团队期望这些发现能推动稀疏编码器技术的发展。