2026-03-13 17:00 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

大規模識別LLM中的互動作用

本文介紹了SPEX和ProxySPEX演算法，它們能從特徵歸因、資料歸因和機制可解釋性三個視角高效識別大規模語言模型中的關鍵互動作用。這些演算法利用稀疏性、低階性和層次性等結構特性，透過較少的消融實驗發現影響模型行為的重要特徵、訓練資料和內部元件之間的互動，在長上下文、資料集和模型元件分析中展現了顯著效果。

來源BAIR Blog

理解複雜機器學習系統（尤其是大型語言模型（LLM））的行為，是現代人工智慧中的關鍵挑戰。可解釋性研究旨在讓模型構建者和受影響的人類更清晰地瞭解決策過程，這是邁向更安全、更可信AI的一步。為了全面理解，我們可以透過不同視角分析這些系統：特徵歸因（隔離驅動預測的特定輸入特徵）、資料歸因（將模型行為與有影響力的訓練樣本聯絡起來）以及機制可解釋性（剖析內部元件的功能）。

在這些視角中，根本性障礙仍然存在：規模複雜性。模型行為很少是孤立元件的結果；相反，它源自複雜的依賴關係和模式。為了達到最先進的效能，模型會合成複雜的特徵關係、從多樣化的訓練樣本中尋找共享模式，並透過高度互聯的內部元件處理資訊。因此，基於實際檢驗的可解釋性方法也必須能夠捕捉這些有影響力的互動。隨著特徵、訓練資料點和模型元件的數量增長，潛在互動的數量呈指數級增長，使得窮舉分析在計算上不可行。在這篇部落格文章中，我們描述了SPEX和ProxySPEX背後的基本思想，這些演算法能夠大規模識別這些關鍵互動。

透過消融進行歸因

我們方法的核心是消融的概念，即透過觀察移除元件時的變化來衡量影響力。

特徵歸因：我們掩蓋或移除輸入提示中的特定片段，並測量預測結果的變化。

資料歸因：我們在訓練集的不同子集上訓練模型，評估在缺少特定訓練資料時模型對測試點的輸出變化。

模型元件歸因（機制可解釋性）：我們透過移除特定內部元件的影響力來干預模型的前向傳播，確定哪些內部結構負責模型的預測。

在每種情況下，目標都是一樣的：透過系統地擾動系統來隔離決策的驅動因素，以期發現重要的互動。由於每次消融都會產生顯著成本（無論是透過昂貴的推理呼叫還是重新訓練），我們的目標是用盡可能少的消融來計算歸因。

SPEX和ProxySPEX框架

為了用可處理的消融次數發現重要互動，我們開發了SPEX（譜直譯器）。該框架借鑑訊號處理和編碼理論，將互動發現的規模提升到比先前方法大數個數量級。SPEX透過利用一個關鍵的結構觀察繞過了這一困難：雖然總互動數量龐大，但重要互動實際上很少。

我們透過兩個觀察形式化了這一點：稀疏性（相對較少的互動真正驅動輸出）和低階性（重要互動通常只涉及一小部分特徵）。這些特性使我們能夠將困難的搜尋問題重新構建為可解的稀疏恢復問題。利用訊號處理和編碼理論中的強大工具，SPEX使用策略性選擇的消融將許多候選互動組合在一起。然後，使用高效的解碼演算法，我們將這些組合訊號分離出來，以隔離導致模型行為的特定互動。

在後續的演算法ProxySPEX中，我們識別了複雜機器學習模型中常見的另一個結構特性：層次性。這意味著如果高階互動很重要，那麼它的低階子集也很可能重要。這一額外的結構觀察帶來了計算成本的顯著改善：它用大約10倍更少的消融達到了與SPEX相同的效能。總的來說，這些框架實現了高效的互動發現，為特徵、資料和模型元件歸因開啟了新應用。

特徵歸因

特徵歸因技術根據輸入特徵對模型輸出的影響分配重要性分數。例如，如果LLM用於醫療診斷，該方法可以識別出哪些症狀導致模型得出結論。雖然對單個特徵的重要性進行歸因可能很有價值，但複雜模型的真正力量在於它們捕捉特徵之間複雜關係的能力。下圖展示了重要互動的示例：從雙重否定改變情感（左）到RAG任務中多個文件的必要綜合（右）。

下圖展示了SPEX在情感分析任務上的特徵歸因效能。我們使用忠實度來評估效能：即恢復的歸因在未見測試消融上預測模型輸出的準確程度。我們發現，SPEX在短輸入上與現有互動技術（Faith-Shap、Faith-Banzhaf）具有相同的忠實度，但當上下文擴充套件到數千個特徵時，它獨特地保持了這種效能。相比之下，邊際方法（LIME、Banzhaf）雖然也能在該規模下執行，但由於無法捕捉驅動模型輸出的複雜互動，其忠實度顯著較低。

SPEX還被應用於一個修改版電車難題，其中去除了道德模糊性，使得“真”成為明確正確答案。在以下修改中，GPT-4o mini只答對了8%的情況。當我們應用標準特徵歸因（SHAP）時，它將單詞“trolley”的單個例項識別為導致錯誤響應的主要因素。然而，將“trolley”替換為同義詞（如“tram”或“streetcar”）對模型預測影響甚微。SPEX揭示了一個更豐富的故事：它識別了一個主導的高階協同效應，涉及兩個“trolley”例項以及單詞“pulling”和“lever”，這一發現與人類對困境核心組成部分的直覺相吻合。當這四個詞被同義詞替換時，模型的失敗率降至接近零。

資料歸因

資料歸因識別哪些訓練資料點對模型在新測試點上的預測最為負責。識別這些資料點之間的重要互動是解釋意外模型行為的關鍵。冗餘互動（如語義重複）通常會強化特定（可能不正確）的概念，而協同互動則對於定義單個樣本無法獨立形成的決策邊界至關重要。為了演示這一點，我們將ProxySPEX應用於在CIFAR-10上訓練的ResNet模型，針對各種困難測試點識別了兩種互動型別中最顯著的示例，如下圖所示。

如圖所示，協同互動（左）通常涉及語義不同的類別共同定義決策邊界。例如，從人類感知角度理解，汽車（左下）與所提供的訓練影像共享視覺特徵，包括跑車的低底盤、黃色卡車的方正形狀以及紅色送貨車的水平條紋。另一方面，冗餘互動（右）往往捕捉到強化特定概念的視覺重複。例如，馬的預測（中右）受到具有相似輪廓的一組狗影像的強烈影響。這種細粒度分析使得可以開發新的資料選擇技術，保留必要的協同作用，同時安全地移除冗餘。

注意力頭歸因（機制可解釋性）

模型元件歸因的目標是識別模型的哪些內部部分（如特定層或注意力頭）對特定行為最為負責。在此，ProxySPEX也能揭示架構不同部分之間的責任互動。理解這些結構依賴關係對於架構干預（如特定任務的注意力頭剪枝）至關重要。在MMLU資料集（美國高中歷史）上，我們證明了基於ProxySPEX的剪枝策略不僅優於競爭方法，而且實際上可以提高模型在目標任務上的效能。

在該任務中，我們還分析了模型深度上的互動結構。我們觀察到，早期層主要線上性模式下執行，其中注意力頭對目標任務的貢獻基本獨立。在後期的層中，注意力頭之間的互動作用變得更加顯著，大部分貢獻來自同一層內頭部之間的互動。

下一步是什麼？

SPEX框架代表可解釋性方面的重大進步，將互動發現從幾十個元件擴充套件到數千個元件。我們已經展示了該框架在整個模型生命週期中的多功能性：探索長上下文輸入的特徵歸因、識別訓練資料點之間的協同和冗餘，以及發現內部模型元件之間的互動。展望未來，圍繞統一這些不同視角，以提供對機器學習系統更全面的理解，仍有許多有趣的研究問題。同時，系統地將互動發現方法與基因組學和材料科學等領域的現有科學知識進行評估，既有助於驗證模型發現，也能產生新的可測試假設，這一點也非常有意義。

我們邀請研究社群加入我們的努力：SPEX和ProxySPEX的程式碼已完全整合並在流行的SHAP-IQ倉庫中提供。