2026-03-13 18:00 UTC+9サイト内リライト6 分で読了更新: 2026-06-27 09:25 UTC+9

LLMの大規模な相互作用の特定

本記事では、大規模言語モデル（LLM）における重要な相互作用を、特徴帰属、データ帰属、メカニズム的解釈可能性の3つの観点から効率的に特定するアルゴリズムSPEXとProxySPEXを紹介します。これらの手法は、スパース性、低次性、階層性といった構造的特性を活用し、少ないアブレーションで特徴、トレーニングデータ、内部コンポーネント間の影響力のある相互作用を発見し、長いコンテキストやデータセット、モデルコンポーネントにわたって優れた性能を示します。

ソースBAIR Blog

記事インテリジェンス

エンジニア上級

要点

SPEXはスパース性と低次性を利用して相互作用発見をスパース回復問題に変換し、計算コストを大幅に削減。
ProxySPEXは階層性を活用し、約10分の1のアブレーションで同等の性能を達成。
特徴帰属ではSPEXが長文タスクで高い忠実性を維持。データ帰属とメカニズム的解釈ではProxySPEXがデータ間の相乗効果・冗長性やアテンションヘッド間の依存関係を効果的に特定。
これらのフレームワークにより、LLMの包括的な解釈可能性のためのスケーラブルな相互作用発見が可能に。

重要な理由

このニュースが重要なのは、SPEXはスパース性と低次性を利用して相互作用発見をスパース回復問題に変換し、計算コストを大幅に削減ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

複雑な機械学習システム、特に大規模言語モデル（LLM）の振る舞いを理解することは、現代の人工知能における重要な課題です。解釈可能性の研究は、モデル構築者や影響を受ける人間にとって意思決定プロセスをより透明にし、より安全で信頼性の高いAIへの一歩となります。包括的な理解を得るために、我々はこれらのシステムを異なるレンズを通して分析できます：特徴帰属（予測を駆動する特定の入力特徴を特定する）、データ帰属（モデルの振る舞いを影響力のあるトレーニング例に結び付ける）、メカニズム的解釈可能性（内部コンポーネントの機能を分析する）。

これらの視点全体で、同じ根本的なハードルが持続します：大規模な複雑性です。モデルの振る舞いは、孤立したコンポーネントの結果ではなく、複雑な依存関係とパターンから現れます。最先端のパフォーマンスを達成するために、モデルは複雑な特徴関係を合成し、多様なトレーニング例から共有パターンを見つけ、高度に相互接続された内部コンポーネントを通じて情報を処理します。したがって、現実に基づいた、または現実確認された解釈可能性の手法は、これらの影響力のある相互作用も捉えることができなければなりません。特徴、トレーニングデータポイント、モデルコンポーネントの数が増えるにつれて、潜在的な相互作用の数は指数関数的に増加し、徹底的な分析は計算的に実行不可能になります。このブログ投稿では、これらの重要な相互作用を大規模に特定できるアルゴリズムであるSPEXとProxySPEXの背後にある基本的なアイデアを説明します。

アブレーションによる帰属

我々のアプローチの中心はアブレーションの概念です。コンポーネントを削除したときに何が変化するかを観察することで影響を測定します。

特徴帰属：入力プロンプトの特定のセグメントをマスクまたは削除し、予測の変化を測定します。

データ帰属：トレーニングセットの異なるサブセットでモデルをトレーニングし、特定のトレーニングデータがない場合のテストポイントでのモデルの出力の変化を評価します。

モデルコンポーネント帰属（メカニズム的解釈可能性）：モデルのフォワードパスに介入して特定の内部コンポーネントの影響を除去し、モデルの予測に関与する内部構造を特定します。

各ケースで目標は同じです：システムを体系的に摂動させることで決定の要因を分離し、重要な相互作用を発見することです。各アブレーションには、高価な推論呼び出しや再トレーニングによる多大なコストがかかるため、我々は可能な限り少ないアブレーションで帰属を計算することを目指します。

SPEXとProxySPEXフレームワーク

処理可能な数のアブレーションで重要な相互作用を発見するために、我々はSPEX（スペクトル説明器）を開発しました。このフレームワークは信号処理と符号理論を活用し、相互作用発見を従来の手法より桁違いに大きいスケールに拡張します。SPEXは重要な構造的観察を利用することでこれを回避します：総相互作用数は法外に大きい一方で、重要な相互作用は実際には非常に少ないということです。

我々はこれを2つの観察を通して形式化します：スパース性（比較的少数の相互作用だけが真に出力を駆動する）と低次性（重要な相互作用は通常、ごく一部の特徴のみを含む）。これらの特性により、困難な探索問題を解決可能なスパース回復問題に再構成できます。信号処理と符号理論の強力なツールを活用し、SPEXは戦略的に選択されたアブレーションを使用して多くの候補相互作用を結合します。次に、効率的な復号アルゴリズムを使用して、これらの結合信号を解きほぐし、モデルの振る舞いに関与する特定の相互作用を分離します。

後続のアルゴリズムProxySPEXでは、複雑な機械学習モデルに共通する別の構造的特性を特定しました：階層性です。これは、高次の相互作用が重要である場合、その低次の部分集合も重要である可能性が高いことを意味します。この追加の構造的観察により、計算コストが劇的に改善されます：SPEXと同様のパフォーマンスを約10分の1のアブレーションで達成します。全体として、これらのフレームワークは効率的な相互作用発見を可能にし、特徴、データ、モデルコンポーネント帰属における新しいアプリケーションを解放します。

特徴帰属

特徴帰属手法は、モデル出力への影響に基づいて入力特徴に重要度スコアを割り当てます。例えば、LLMが医療診断に使用された場合、このアプローチはどの症状がモデルの結論につながったかを正確に特定できます。個々の特徴に重要度を帰属することは価値がありますが、洗練されたモデルの真の力は、特徴間の複雑な関係を捉える能力にあります。下図はこれらの重要な相互作用の例を示しています：二重否定がセンチメントを変える（左）から、RAGタスクにおける複数ドキュメントの必要な統合（右）まで。

下図は、感情分析タスクにおけるSPEXの特徴帰属パフォーマンスを示しています。我々は忠実度を使用してパフォーマンスを評価します：回復された帰属が未見のテストアブレーションでモデル出力をどの程度正確に予測できるかの尺度です。SPEXは短い入力で既存の相互作用手法（Faith-Shap、Faith-Banzhaf）と同等の高い忠実度を示しますが、コンテキストが数千の特徴に拡大しても独自にこのパフォーマンスを維持します。対照的に、限界アプローチ（LIME、Banzhaf）もこのスケールで動作できますが、モデル出力を駆動する複雑な相互作用を捉えられないため、忠実度が著しく低くなります。

SPEXは、トロッコ問題の修正版にも適用されました。そこでは道徳的曖昧性が除去され、「真」が明確な正解となっています。下記の修正で、GPT-4o miniは正答率わずか8%でした。標準的な特徴帰属（SHAP）を適用すると、「トロッコ」という単語の個々のインスタンスが誤った応答の主要な要因として特定されました。しかし、「トロッコ」を「トラム」や「路面電車」などの同義語に置き換えても、モデルの予測にほとんど影響はありませんでした。SPEXはより豊かなストーリーを明らかにしました：2つの「トロッコ」インスタンスと「引っ張る」および「レバー」という単語の間の支配的な高次の相乗効果を特定しました。これは人間の直感に合致する発見です。これら4つの単語を同義語に置き換えると、モデルの失敗率はほぼゼロになりました。

データ帰属

データ帰属は、新しいテストポイントでのモデルの予測に最も責任があるトレーニングデータポイントを特定します。これらのデータポイント間の重要な相互作用を特定することは、予期しないモデルの振る舞いを説明する鍵です。冗長な相互作用（セマンティックな重複など）は特定の（おそらく誤った）概念を強化することが多く、相乗的な相互作用は単一サンプル単独では形成できない決定境界を定義するために不可欠です。これを実証するために、我々はProxySPEXをCIFAR-10でトレーニングされたResNetモデルに適用し、下図に示すように、様々な困難なテストポイントに対して両方の相互作用タイプの最も顕著な例を特定しました。

図示されているように、相乗的相互作用（左）は、多くの場合、意味的に異なるクラスが協力して決定境界を定義します。例えば、人間の知覚に基づいて、自動車（左下）は提供されたトレーニング画像と視覚的特徴を共有します：スポーツカーの低いシャーシ、黄色いトラックの箱型形状、赤い配達車両の水平なストライプ。一方、冗長な相互作用（右）は、特定の概念を強化する視覚的な重複を捉える傾向があります。例えば、馬の予測（中央右）は、類似したシルエットを持つ犬の画像のクラスターに強く影響されます。この細かい分析により、必要な相乗効果を維持しながら冗長性を安全に除去する新しいデータ選択技術の開発が可能になります。

アテンションヘッド帰属（メカニズム的解釈可能性）

モデルコンポーネント帰属の目標は、モデルの内部部分（特定の層やアテンションヘッドなど）のうち、特定の振る舞いに対して最も責任があるものを特定することです。ここでもProxySPEXは、アーキテクチャの異なる部分間の責任のある相互作用を明らかにします。これらの構造的依存関係を理解することは、タスク固有のアテンションヘッドプルーニングなどのアーキテクチャ介入にとって重要です。MMLUデータセット（高校米国史）において、ProxySPEXに基づくプルーニング戦略が競合手法を上回るだけでなく、実際にターゲットタスクのモデル性能を向上させることを実証しました。

このタスクでは、モデルの深さ全体にわたる相互作用構造も分析しました。初期の層は主に線形領域で機能し、ヘッドがターゲットタスクにほぼ独立して貢献することが観察されました。後の層では、アテンションヘッド間の相互作用の役割がより顕著になり、ほとんどの貢献は同じ層内のヘッド間の相互作用から来ています。

今後の展望

SPEXフレームワークは、解釈可能性における重要な進歩を示し、相互作用発見を数十のコンポーネントから数千のコンポーネントに拡張します。我々は、フレームワークの多用途性をモデルライフサイクル全体にわたって実証しました：長いコンテキスト入力での特徴帰属の探索、トレーニングデータポイント間の相乗効果と冗長性の特定、内部モデルコンポーネント間の相互作用の発見。今後も、これらの異なる視点を統合し、機械学習システムのより全体的な理解を提供することを中心に、多くの興味深い研究課題が残っています。また、ゲノミクスや材料科学などの分野で既存の科学的知識と相互作用発見手法を体系的に評価することは、モデルの発見を実証し、新しいテスト可能な仮説を生成するために非常に重要です。

我々は研究コミュニティをこの取り組みに招待します：SPEXとProxySPEXのコードは完全に統合され、人気のあるSHAP-IQリポジトリで利用可能です。