多重中介者的詛咒:啟用補丁中的隱藏互動效應
最新研究揭示,在機械可解釋性中常用的啟用補丁技術,其估計的自然間接效應(NIE)不僅包含特定元件的因果效應,還混雜了互動效應(INT)。這些互動效應衡量元件因果效應如何依賴於其他元件的狀態,可能導致因果重要性被高估或低估,甚至遺漏重要機制。研究在GPT-2 IOI電路上演示了這些失敗模式,並證明INT是不可避免的,但可作為診斷工具,提示因果結論的提示依賴性和貪婪排名的侷限性。
機械可解釋性(Mechanistic Interpretability)旨在理解神經網路內部元件如何協同工作以產生特定行為。啟用補丁(Activation Patching)是該領域最常用的技術之一,透過估計“自然間接效應”(Natural Indirect Effect, NIE)來量化每個元件對模型行為的因果貢獻。然而,一項來自arXiv的最新預印本研究(2606.27510)指出,NIE實際上並非純粹的元件因果效應,其中隱藏著互動效應(Interaction Effects, INT),這些效應衡量的是元件因果作用本身如何依賴於模型中其他元件的狀態。
研究團隊從因果中介分析(Causal Mediation Analysis)重新推導了啟用補丁的估計量,發現NIE天然包含INT成分。這意味著,當我們對某個元件進行補丁操作時,其因果效應受到其他元件當前狀態的影響。例如,在GPT-2的“IOI電路”(Indirect Object Identification circuit)中,某些元件的因果重要性只有在其他元件處於特定狀態時才顯現,導致它們要麼被完全忽視,要麼被人為放大。這解釋了此前文獻中觀察到的“忠實度分數”(Faithfulness Scores)不穩定現象——INT的方差是其主要來源。
論文進一步證明了INT的幾個關鍵性質:首先,INT的大小隨乾淨啟用與補丁啟用之間的距離縮放;其次,當模型區域性仿射(Locally Affine)時,INT可忽略;第三,INT可組合分解為成對互動和更高階的群組互動。這些性質有助於理解INT何時顯著。
儘管INT看似是干擾,作者卻主張其不應被消除,而應作為可解釋性研究的診斷工具。INT的幅度和符號可揭示因果結論是否依賴於具體提示(Prompt),以及基於NIE的貪婪元件排名是否會遺漏那些僅透過組合搜尋才能發現的機制。該研究為機械可解釋性方法提供了重要的理論修正,並指導未來研究方向。