多重中介者的诅咒:激活补丁中的隐藏交互效应
最新研究揭示,在机械可解释性中常用的激活补丁技术,其估计的自然间接效应(NIE)不仅包含特定组件的因果效应,还混杂了交互效应(INT)。这些交互效应衡量组件因果效应如何依赖于其他组件的状态,可能导致因果重要性被高估或低估,甚至遗漏重要机制。研究在GPT-2 IOI电路上演示了这些失败模式,并证明INT是不可避免的,但可作为诊断工具,提示因果结论的提示依赖性和贪婪排名的局限性。
机械可解释性(Mechanistic Interpretability)旨在理解神经网络内部组件如何协同工作以产生特定行为。激活补丁(Activation Patching)是该领域最常用的技术之一,通过估计“自然间接效应”(Natural Indirect Effect, NIE)来量化每个组件对模型行为的因果贡献。然而,一项来自arXiv的最新预印本研究(2606.27510)指出,NIE实际上并非纯粹的组件因果效应,其中隐藏着交互效应(Interaction Effects, INT),这些效应衡量的是组件因果作用本身如何依赖于模型中其他组件的状态。
研究团队从因果中介分析(Causal Mediation Analysis)重新推导了激活补丁的估计量,发现NIE天然包含INT成分。这意味着,当我们对某个组件进行补丁操作时,其因果效应受到其他组件当前状态的影响。例如,在GPT-2的“IOI电路”(Indirect Object Identification circuit)中,某些组件的因果重要性只有在其他组件处于特定状态时才显现,导致它们要么被完全忽视,要么被人为放大。这解释了此前文献中观察到的“忠实度分数”(Faithfulness Scores)不稳定现象——INT的方差是其主要来源。
论文进一步证明了INT的几个关键性质:首先,INT的大小随干净激活与补丁激活之间的距离缩放;其次,当模型局部仿射(Locally Affine)时,INT可忽略;第三,INT可组合分解为成对交互和更高阶的群组交互。这些性质有助于理解INT何时显著。
尽管INT看似是干扰,作者却主张其不应被消除,而应作为可解释性研究的诊断工具。INT的幅度和符号可揭示因果结论是否依赖于具体提示(Prompt),以及基于NIE的贪婪组件排名是否会遗漏那些仅通过组合搜索才能发现的机制。该研究为机械可解释性方法提供了重要的理论修正,并指导未来研究方向。