2024-12-13 00:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

在同一数据上训练的SAE不会学到相同的特征

研究表明，使用不同随机种子但相同数据和批次顺序训练的TopK稀疏自编码器（SAE），其学习到的潜在特征仅有约53%是共享的。未共享的特征中许多是可解释的。较窄的SAE特征重叠较高，而随着SAE规模增大，重叠降低。这一现象与特征分裂和吸收理论一致，表明SAE并未发现“通用”特征集。

来源EleutherAI Blog

EleutherAI的研究人员发现，使用相同数据和批次顺序但不同随机种子训练的TopK稀疏自编码器（SAE）不会学到相同的特征。这项研究强调了SAE在发现特征时的非确定性，并提出了对模型可解释性的重要影响。

研究团队对Pythia-160m模型第六层MLP训练了不同规模的SAE，所有SAE使用相同的数据顺序，但每个规模训练两个不同随机种子的SAE。他们利用匈牙利算法计算潜在特征之间的匹配，通过平均编码器/解码器向量的余弦相似度来衡量对齐程度。结果显示，只有约53%的潜在特征在两个SAE之间是共享的（余弦相似度>0.7且编码器与解码器匹配一致）。当引入第三个SAE时，大部分在SAE1和SAE2中共享的特征也在SAE3中出现，但仍有35%的特征仅在单个SAE中存在。

进一步分析表明，频繁激活的潜在特征更可能是共享的，而罕见的激活特征更可能是独特的。研究者认为这可能是特征分裂/吸收的证据：不同种子导致不同标记/概念的吸收，从而产生不同的特征集。有趣的是，即使未共享的潜在特征也往往具有良好的可解释性。对7000多个潜在特征进行自动解释后，平均解释得分为0.72，其中许多得分高的特征在不同种子间相似度较低。

研究还发现，SAE规模影响特征重叠：从8000到131000潜在特征的SAE中，较大SAE的特征重叠比例较低。例如，8000潜在特征的SAE有约60%的特征共享，而131000潜在特征的SAE只有约30%的特征共享。同时，自动解释得分低的潜在特征通常激活频率更高，且在不同种子间相似度低。

这些结果挑战了SAE能够发现通用特征集的假设。研究者认为特征发现应被视为组合问题，即寻找将输入空间划分为类别的有用方式，而这些类别本身可以进一步划分为更细的类别。尽管研究仅限于TopK SAE，他们推测JumpReLU SAE也会得到类似结果。传统的L1正则化ReLU SAE可能表现出更强的普适性，但由于其稀疏性优化不足，近年已不太常用。

这项研究为非凸损失函数下深度学习模型的可解释性提供了重要见解，表明随机初始化可以导致截然不同的内部表示，这在使用SAE进行模型分析时需要谨慎对待。