2026-06-03 07:27 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

大语言模型并非你所认为的黑箱

Anthropic 的《大型语言模型的生物学》（2025）是机械可解释性领域的里程碑。通过电路追踪等技术，研究人员能够揭示模型内部的多步推理过程，发现它们使用人类可理解的概念（如“德克萨斯”）进行类符号推理。这项工作有助于识别模型错误、引导行为，甚至设计更好的学习算法。

来源Hacker News AI作者: _jayhack_

Anthropic 在2025年发表的论文《大型语言模型的生物学》是机械可解释性领域的一项里程碑式研究。长期以来，神经网络被普遍视为难以理解的“黑箱”，但这项研究通过创新的电路追踪技术，成功逆向工程了模型内部的复杂计算过程。

研究人员面临的核心挑战是“叠加”现象：单个神经元往往参与多个无关的概念，而任何一个概念又分散在众多神经元中。传统方法无法从单一的神经元激活中直接解读含义。为此，Anthropic开发了一种电路追踪技术：训练一个“替代模型”来稀疏地重建基础模型MLP层的输出，从而将模型的激活分解为一组稀疏特征。令人惊讶的是，这些特征恰好对应人类能够轻松识别的高层概念，例如“德克萨斯”或“奥运会”。

一旦获得了这些可解释的特征，研究人员就可以通过追踪它们在模型前向传播过程中的相互作用，将它们按因果关系聚类，从而构建出计算过程的“接线图”。当询问模型“达拉斯所在州的州府是什么”时，可以观察到一系列有序的特征激活：首先“达拉斯”特征被激活，接着引发“德克萨斯”特征，最后激活“奥斯汀”特征。这清晰地表明，模型确实在进行多步符号推理，类似于哲学家所说的“高阶推理”。

有趣的是，这种现象并不局限于大型语言模型。DeepMind在2022年的研究显示，基于蒙特卡洛树搜索的系统AlphaZero也自主学会了与人类国际象棋概念（如“被将军”和“牵制”）对应的中间表示，而且完全没有接受任何人类棋类知识的输入。

理解模型的内部推理过程还能帮助设计更好的学习算法。例如，Anthropic发现Claude 3.5 Haiku学习了一种独特的整数加法算法：它并非像人类那样进行心算，而是将问题拆分为多个并行的路径——同时计算粗略的数量级和精确的个位数——然后结合记忆中的“查找表”特征进行重组。这引发了一个自然的问题：我们能否识别这些内部模式，然后“引导”模型采用更优的算法？

值得注意的是，模型本身对其内部思维过程并不具备元认知能力。当要求模型解释它如何计算加法时，它会叙述一套整洁的、符合人类习惯的步骤，但这与实际运行的算法并不一致。这种“下意识”的存在恰恰为可解释性研究提供了切入点。

机械可解释性的进展具有重大意义。它不仅可以用于识别模型的不良行为、引导模型输出，还能帮助设计更好的学习算法。与十年前机器学习教授们的普遍看法相反，如今我们在某些方面已经从模型中获得了前所未有的深刻洞察。这篇论文的详细内容可参见Anthropic官网，而相关讨论则在X平台上引发广泛关注。