配對時正確,分離時錯誤:多模態大語言模型中模態特定神經元的解耦與編輯
最新研究發現,多模態大語言模型(MLLMs)在知識編輯時存在“編輯解耦失敗”問題:雖然多模態輸入下實體知識可被更新,但一旦輸入分離為單模態,知識就會恢復舊值。研究者提出DECODE方法,通過顯式解耦並定位模態特定神經元組,實現了跨模態觸發條件下的有效知識更新。
多模態大語言模型(MLLMs)的知識編輯技術旨在高效更新模型中的事實知識,但一項來自arXiv的新研究揭示了當前範式的一個關鍵缺陷:編輯解耦失敗。當模型通過圖文配對查詢觸發時,實體相關知識可以成功更新;然而,當配對輸入被分離為單模態(僅文本或僅圖像)時,模型往往會恢復到編輯前的舊事實。該論文《Correct When Paired, Wrong When Split: Decoupling and Editing Modality-Specific Neurons in MLLMs》深入分析了這一現象。
研究團隊通過大規模實證分析發現,MLLMs中的實體知識並非以統一的表示形式存儲,而是分佈在解耦的模態特定通路中。這意味着,面向多模態查詢的更新偏向於多模態通路,無法有效傳播到單模態電路,從而導致編輯解耦失敗。為彌合這一差距,研究者提出了DECODE方法,該框架顯式地解耦並定位模態特定的神經元組,從而實現針對性的知識編輯。
DECODE的核心思想是識別出與多模態和單模態處理相關的不同神經元羣體,並分別進行更新。通過這種方式,知識更新能夠同時作用於多模態和單模態觸發條件,確保在不同輸入形式下的一致性。大量實驗證明,DECODE在各種模態觸發條件下均能實現有效的知識更新,顯著緩解了編輯解耦失敗問題。該工作為多模態知識編輯提供了新的視角和方法,有望推動更可靠、更魯棒的多模態大語言模型發展。
此外,該研究還揭示了MLLMs內部機制的複雜性,為未來模型設計和編輯策略提供了重要啓示。研究者指出,編輯解耦失敗不僅影響知識編輯的實際應用,也可能對模型的安全性和可靠性構成挑戰。DECODE方法的提出,為應對這一挑戰提供了可行的解決方案。