AI News HubLIVE
站内改写2 分钟阅读

大语言模型并非你所认为的黑箱

Anthropic 的《大型语言模型的生物学》(2025)是机械可解释性领域的里程碑。通过电路追踪等技术,研究人员能够揭示模型内部的多步推理过程,发现它们使用人类可理解的概念(如“德克萨斯”)进行类符号推理。这项工作有助于识别模型错误、引导行为,甚至设计更好的学习算法。

来源Hacker News AI作者: _jayhack_

Anthropic 在2025年发表的论文《大型语言模型的生物学》是机械可解释性领域的一项里程碑式研究。长期以来,神经网络被普遍视为难以理解的“黑箱”,但这项研究通过创新的电路追踪技术,成功逆向工程了模型内部的复杂计算过程。

研究人员面临的核心挑战是“叠加”现象:单个神经元往往参与多个无关的概念,而任何一个概念又分散在众多神经元中。传统方法无法从单一的神经元激活中直接解读含义。为此,Anthropic开发了一种电路追踪技术:训练一个“替代模型”来稀疏地重建基础模型MLP层的输出,从而将模型的激活分解为一组稀疏特征。令人惊讶的是,这些特征恰好对应人类能够轻松识别的高层概念,例如“德克萨斯”或“奥运会”。

一旦获得了这些可解释的特征,研究人员就可以通过追踪它们在模型前向传播过程中的相互作用,将它们按因果关系聚类,从而构建出计算过程的“接线图”。当询问模型“达拉斯所在州的州府是什么”时,可以观察到一系列有序的特征激活:首先“达拉斯”特征被激活,接着引发“德克萨斯”特征,最后激活“奥斯汀”特征。这清晰地表明,模型确实在进行多步符号推理,类似于哲学家所说的“高阶推理”。

有趣的是,这种现象并不局限于大型语言模型。DeepMind在2022年的研究显示,基于蒙特卡洛树搜索的系统AlphaZero也自主学会了与人类国际象棋概念(如“被将军”和“牵制”)对应的中间表示,而且完全没有接受任何人类棋类知识的输入。

理解模型的内部推理过程还能帮助设计更好的学习算法。例如,Anthropic发现Claude 3.5 Haiku学习了一种独特的整数加法算法:它并非像人类那样进行心算,而是将问题拆分为多个并行的路径——同时计算粗略的数量级和精确的个位数——然后结合记忆中的“查找表”特征进行重组。这引发了一个自然的问题:我们能否识别这些内部模式,然后“引导”模型采用更优的算法?

值得注意的是,模型本身对其内部思维过程并不具备元认知能力。当要求模型解释它如何计算加法时,它会叙述一套整洁的、符合人类习惯的步骤,但这与实际运行的算法并不一致。这种“下意识”的存在恰恰为可解释性研究提供了切入点。

机械可解释性的进展具有重大意义。它不仅可以用于识别模型的不良行为、引导模型输出,还能帮助设计更好的学习算法。与十年前机器学习教授们的普遍看法相反,如今我们在某些方面已经从模型中获得了前所未有的深刻洞察。这篇论文的详细内容可参见Anthropic官网,而相关讨论则在X平台上引发广泛关注。

大语言模型并非你所认为的黑箱 | AI News Hub