2026-03-13 17:00 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

大規模識別LLM中的交互作用

本文介紹了SPEX和ProxySPEX算法，它們能從特徵歸因、數據歸因和機制可解釋性三個視角高效識別大規模語言模型中的關鍵交互作用。這些算法利用稀疏性、低階性和層次性等結構特性，通過較少的消融實驗發現影響模型行為的重要特徵、訓練數據和內部組件之間的交互，在長上下文、數據集和模型組件分析中展現了顯著效果。

來源BAIR Blog

理解複雜機器學習系統（尤其是大型語言模型（LLM））的行為，是現代人工智能中的關鍵挑戰。可解釋性研究旨在讓模型構建者和受影響的人類更清晰地瞭解決策過程，這是邁向更安全、更可信AI的一步。為了全面理解，我們可以通過不同視角分析這些系統：特徵歸因（隔離驅動預測的特定輸入特徵）、數據歸因（將模型行為與有影響力的訓練樣本聯繫起來）以及機制可解釋性（剖析內部組件的功能）。

在這些視角中，根本性障礙仍然存在：規模複雜性。模型行為很少是孤立組件的結果；相反，它源自複雜的依賴關係和模式。為了達到最先進的性能，模型會合成複雜的特徵關係、從多樣化的訓練樣本中尋找共享模式，並通過高度互聯的內部組件處理信息。因此，基於實際檢驗的可解釋性方法也必須能夠捕捉這些有影響力的交互。隨着特徵、訓練數據點和模型組件的數量增長，潛在交互的數量呈指數級增長，使得窮舉分析在計算上不可行。在這篇博客文章中，我們描述了SPEX和ProxySPEX背後的基本思想，這些算法能夠大規模識別這些關鍵交互。

通過消融進行歸因

我們方法的核心是消融的概念，即通過觀察移除組件時的變化來衡量影響力。

特徵歸因：我們掩蓋或移除輸入提示中的特定片段，並測量預測結果的變化。

數據歸因：我們在訓練集的不同子集上訓練模型，評估在缺少特定訓練數據時模型對測試點的輸出變化。

模型組件歸因（機制可解釋性）：我們通過移除特定內部組件的影響力來干預模型的前向傳播，確定哪些內部結構負責模型的預測。

在每種情況下，目標都是一樣的：通過系統地擾動系統來隔離決策的驅動因素，以期發現重要的交互。由於每次消融都會產生顯著成本（無論是通過昂貴的推理調用還是重新訓練），我們的目標是用盡可能少的消融來計算歸因。

SPEX和ProxySPEX框架

為了用可處理的消融次數發現重要交互，我們開發了SPEX（譜解釋器）。該框架借鑑信號處理和編碼理論，將交互發現的規模提升到比先前方法大數個數量級。SPEX通過利用一個關鍵的結構觀察繞過了這一困難：雖然總交互數量龐大，但重要交互實際上很少。

我們通過兩個觀察形式化了這一點：稀疏性（相對較少的交互真正驅動輸出）和低階性（重要交互通常只涉及一小部分特徵）。這些特性使我們能夠將困難的搜索問題重新構建為可解的稀疏恢復問題。利用信號處理和編碼理論中的強大工具，SPEX使用策略性選擇的消融將許多候選交互組合在一起。然後，使用高效的解碼算法，我們將這些組合信號分離出來，以隔離導致模型行為的特定交互。

在後續的算法ProxySPEX中，我們識別了複雜機器學習模型中常見的另一個結構特性：層次性。這意味着如果高階交互很重要，那麼它的低階子集也很可能重要。這一額外的結構觀察帶來了計算成本的顯著改善：它用大約10倍更少的消融達到了與SPEX相同的性能。總的來説，這些框架實現了高效的交互發現，為特徵、數據和模型組件歸因開啓了新應用。

特徵歸因

特徵歸因技術根據輸入特徵對模型輸出的影響分配重要性分數。例如，如果LLM用於醫療診斷，該方法可以識別出哪些症狀導致模型得出結論。雖然對單個特徵的重要性進行歸因可能很有價值，但複雜模型的真正力量在於它們捕捉特徵之間複雜關係的能力。下圖展示了重要交互的示例：從雙重否定改變情感（左）到RAG任務中多個文檔的必要綜合（右）。

下圖展示了SPEX在情感分析任務上的特徵歸因性能。我們使用忠實度來評估性能：即恢復的歸因在未見測試消融上預測模型輸出的準確程度。我們發現，SPEX在短輸入上與現有交互技術（Faith-Shap、Faith-Banzhaf）具有相同的忠實度，但當上下文擴展到數千個特徵時，它獨特地保持了這種性能。相比之下，邊際方法（LIME、Banzhaf）雖然也能在該規模下運行，但由於無法捕捉驅動模型輸出的複雜交互，其忠實度顯著較低。

SPEX還被應用於一個修改版電車難題，其中去除了道德模糊性，使得“真”成為明確正確答案。在以下修改中，GPT-4o mini只答對了8%的情況。當我們應用標準特徵歸因（SHAP）時，它將單詞“trolley”的單個實例識別為導致錯誤響應的主要因素。然而，將“trolley”替換為同義詞（如“tram”或“streetcar”）對模型預測影響甚微。SPEX揭示了一個更豐富的故事：它識別了一個主導的高階協同效應，涉及兩個“trolley”實例以及單詞“pulling”和“lever”，這一發現與人類對困境核心組成部分的直覺相吻合。當這四個詞被同義詞替換時，模型的失敗率降至接近零。

數據歸因

數據歸因識別哪些訓練數據點對模型在新測試點上的預測最為負責。識別這些數據點之間的重要交互是解釋意外模型行為的關鍵。冗餘交互（如語義重複）通常會強化特定（可能不正確）的概念，而協同交互則對於定義單個樣本無法獨立形成的決策邊界至關重要。為了演示這一點，我們將ProxySPEX應用於在CIFAR-10上訓練的ResNet模型，針對各種困難測試點識別了兩種交互類型中最顯著的示例，如下圖所示。

如圖所示，協同交互（左）通常涉及語義不同的類別共同定義決策邊界。例如，從人類感知角度理解，汽車（左下）與所提供的訓練圖像共享視覺特徵，包括跑車的低底盤、黃色卡車的方正形狀以及紅色送貨車的水平條紋。另一方面，冗餘交互（右）往往捕捉到強化特定概念的視覺重複。例如，馬的預測（中右）受到具有相似輪廓的一組狗圖像的強烈影響。這種細粒度分析使得可以開發新的數據選擇技術，保留必要的協同作用，同時安全地移除冗餘。

注意力頭歸因（機制可解釋性）

模型組件歸因的目標是識別模型的哪些內部部分（如特定層或注意力頭）對特定行為最為負責。在此，ProxySPEX也能揭示架構不同部分之間的責任交互。理解這些結構依賴關係對於架構干預（如特定任務的注意力頭剪枝）至關重要。在MMLU數據集（美國高中歷史）上，我們證明了基於ProxySPEX的剪枝策略不僅優於競爭方法，而且實際上可以提高模型在目標任務上的性能。

在該任務中，我們還分析了模型深度上的交互結構。我們觀察到，早期層主要在線性模式下運行，其中注意力頭對目標任務的貢獻基本獨立。在後期的層中，注意力頭之間的交互作用變得更加顯著，大部分貢獻來自同一層內頭部之間的交互。

下一步是什麼？

SPEX框架代表可解釋性方面的重大進步，將交互發現從幾十個組件擴展到數千個組件。我們已經展示了該框架在整個模型生命週期中的多功能性：探索長上下文輸入的特徵歸因、識別訓練數據點之間的協同和冗餘，以及發現內部模型組件之間的交互。展望未來，圍繞統一這些不同視角，以提供對機器學習系統更全面的理解，仍有許多有趣的研究問題。同時，系統地將交互發現方法與基因組學和材料科學等領域的現有科學知識進行評估，既有助於驗證模型發現，也能產生新的可測試假設，這一點也非常有意義。

我們邀請研究社區加入我們的努力：SPEX和ProxySPEX的代碼已完全集成並在流行的SHAP-IQ倉庫中提供。