多重中介者的詛咒:激活補丁中的隱藏交互效應
最新研究揭示,在機械可解釋性中常用的激活補丁技術,其估計的自然間接效應(NIE)不僅包含特定組件的因果效應,還混雜了交互效應(INT)。這些交互效應衡量組件因果效應如何依賴於其他組件的狀態,可能導致因果重要性被高估或低估,甚至遺漏重要機制。研究在GPT-2 IOI電路上演示了這些失敗模式,並證明INT是不可避免的,但可作為診斷工具,提示因果結論的提示依賴性和貪婪排名的侷限性。
機械可解釋性(Mechanistic Interpretability)旨在理解神經網絡內部組件如何協同工作以產生特定行為。激活補丁(Activation Patching)是該領域最常用的技術之一,通過估計“自然間接效應”(Natural Indirect Effect, NIE)來量化每個組件對模型行為的因果貢獻。然而,一項來自arXiv的最新預印本研究(2606.27510)指出,NIE實際上並非純粹的組件因果效應,其中隱藏着交互效應(Interaction Effects, INT),這些效應衡量的是組件因果作用本身如何依賴於模型中其他組件的狀態。
研究團隊從因果中介分析(Causal Mediation Analysis)重新推導了激活補丁的估計量,發現NIE天然包含INT成分。這意味着,當我們對某個組件進行補丁操作時,其因果效應受到其他組件當前狀態的影響。例如,在GPT-2的“IOI電路”(Indirect Object Identification circuit)中,某些組件的因果重要性只有在其他組件處於特定狀態時才顯現,導致它們要麼被完全忽視,要麼被人為放大。這解釋了此前文獻中觀察到的“忠實度分數”(Faithfulness Scores)不穩定現象——INT的方差是其主要來源。
論文進一步證明了INT的幾個關鍵性質:首先,INT的大小隨乾淨激活與補丁激活之間的距離縮放;其次,當模型局部仿射(Locally Affine)時,INT可忽略;第三,INT可組合分解為成對交互和更高階的羣組交互。這些性質有助於理解INT何時顯著。
儘管INT看似是干擾,作者卻主張其不應被消除,而應作為可解釋性研究的診斷工具。INT的幅度和符號可揭示因果結論是否依賴於具體提示(Prompt),以及基於NIE的貪婪組件排名是否會遺漏那些僅通過組合搜索才能發現的機制。該研究為機械可解釋性方法提供了重要的理論修正,並指導未來研究方向。