轮次平均稀疏自编码器:特征发现与长上下文归因
本文介绍了一种新型稀疏自编码器——轮次平均SAE,它通过重构整轮对话的平均模型激活,将每轮对话表示为固定数量的特征,从而解决标准SAE在长上下文中特征数量线性增长的问题。实验表明,轮次平均特征比逐词特征更完整地描述单轮对话的高层特征,并简化了归因图等下游应用。
稀疏自编码器(SAE)已成为从语言模型中提取可解释特征的关键工具。然而,标准的SAE架构对每个token的激活单独处理,导致活跃特征数量随上下文长度线性增长。当分析包含成百上千个token的对话或文档时,这种扩展性瓶颈使得特征提取和后续分析变得异常困难。
来自Kevin Der等人的最新研究提出了一种创新的解决方案——轮次平均SAE(Turn-Averaged SAE)。该方法的核心思想是将一次完整的用户或助手轮次视为一个基本单元,通过训练模型重构该轮次内所有token激活的平均值,从而将整个轮次编码为一个固定维度的特征向量。这意味着无论轮次中包含多少token,其特征数量都保持恒定。
实验结果表明,由语言模型评估,轮次平均特征比逐token特征更完整地描述了单个轮次的高层语义特征。逐token特征往往更关注局部细节,而轮次平均特征则能捕捉更宏观的模式。此外,轮次平均SAE显著简化了归因图等常见下游应用,这些应用在长上下文场景中原本会变得非常复杂。
这项研究不仅为SAE提供了一种有价值的变体,还推动了可解释性技术在更实际场景中的应用,例如长时间对话分析、大型文档理解等。论文已提交至计算语言学和机器学习领域,相关代码和数据集预计将在后续公开发布,这将为社区进一步探索和应用提供基础。