多重メディエーターの呪い:アクティベーションパッチングにおける隠れた相互作用効果
最新の研究により、機械的解釈可能性で一般的に使用されるアクティベーションパッチング手法が推定する自然間接効果(NIE)には、特定のコンポーネントの因果効果だけでなく、相互作用効果(INT)が含まれていることが明らかになった。INTはコンポーネントの因果効果が他のコンポーネントの状態にどの程度依存するかを測定し、因果的重要性の過大評価や過小評価、さらには重要なメカニズムの見逃しを引き起こす可能性がある。研究はGPT-2 IOI回路でこれらの失敗モードを実証し、INTは避けられないが診断ツールとして有用であることを示している。
機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークの内部コンポーネントがどのように連携して特定の振る舞いを生み出すかを理解することを目的としています。アクティベーションパッチングはこの分野で最も一般的な手法であり、「自然間接効果」(NIE)を推定することで、各コンポーネントのモデル行動に対する因果的貢献を定量化します。しかし、arXivの新しいプレプリント研究(2606.27510)は、NIEが実際には純粋な因果効果ではなく、相互作用効果(INT)が隠れていることを指摘しています。INTは、コンポーネントの因果効果自体がモデル内の他のコンポーネントの状態にどの程度依存するかを測定します。
研究チームは因果媒介分析からアクティベーションパッチングの推定式を再導出し、NIEが必然的にINTを含むことを発見しました。これは、あるコンポーネントをパッチするとき、その因果効果が他のコンポーネントの状態に影響されることを意味します。例えば、GPT-2のIOI回路(間接目的語同定回路)では、特定のコンポーネントの因果的重要性は他のコンポーネントが特定の状態にある場合にのみ現れ、その結果、それらのコンポーネントは完全に見えないか、人為的に増幅されます。これにより、以前から文献で報告されていた「忠実度スコア」の不安定性が説明できます。実際、INTの分散がその主な原因です。
論文はさらにINTの重要な性質を証明しています。第一に、INTの大きさはクリーンアクティベーションとパッチアクティベーションの距離に応じてスケールします。第二に、モデルが局所アフィンである場合、INTは無視できます。第三に、INTはペアワイズおよび高次のグループ相互作用に組み合わせ分解可能です。これらの性質は、INTがいつ顕著になるかを理解するのに役立ちます。
INTは一見ノイズのように見えますが、著者らはそれを排除すべきではなく、解釈可能性研究の診断ツールとして使うべきだと主張しています。INTの大きさと符号は、因果的結論が特定のプロンプトに依存するかどうか、また、NIEに基づく欲張りなコンポーネントランキングが、組み合わせ探索によってのみ発見可能なメカニズムを見落とすかどうかを示します。この研究は、機械的解釈可能性の手法に重要な理論的修正を加え、今後の研究方向性を示しています。