一掩蔽之,統御所有:編輯後的隱藏事實及其發現方法
本文研究知識編輯方法(如ROME和MEMIT)在Transformer模型中的內在機制。作者發現儘管每次編輯修改不同的權重,但所有編輯都依賴於一個共同的權重子集。透過訓練一個緊湊的二進位制掩碼,他們成功逆轉了訓練集上80%的編輯和測試集上超過70%的編輯,驗證了不同編輯共享共有功能結構。掩碼透過消除後期層的過度注意來逆轉編輯,且注入該掩碼會使編輯成功率從98%驟降至38%,表明該機制是編輯成功的必要條件。研究發現編輯實際上抑制而非覆蓋知識,這解釋了ROME和MEMIT無法將更改傳播到相關事實的原因。該發現有助於檢測和防禦未授權編輯。
文章情報
要點
- ROME/MEMIT等編輯方法雖修改不同的權重,但都作用於一個共同的權重子集。
- 訓練得到的二進位制掩碼可逆轉超過70%的編輯,其機制是消除後期層的過度注意。
- 編輯是抑制而非覆蓋知識,這導致編輯無法傳播到相關事實。
- 該研究為檢測和防禦惡意編輯提供了共同的功能子空間。
為什麼重要
這條新聞值得關注,因為ROME/MEMIT等編輯方法雖修改不同的權重,但都作用於一個共同的權重子集。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
知識編輯方法(如ROME和MEMIT)透過修改Transformer模型中的MLP權重來更新事實關聯。儘管這些方法主要透過輸出行為進行評估,但其內在機制仍鮮有探索。來自arXiv的一篇新論文(2605.28839)系統研究了這一問題,揭示了不同知識編輯背後潛在的統一機制。該論文已被ACL 2026 Findings接收,作者包括Ali Holmov等四位研究者。
研究人員提出,儘管每次編輯對應事實特定的權重變化,但ROME和MEMIT實際上都鎖定了一組對維持編輯至關重要的共同權重子集。為了隔離這一子集,他們訓練了一個緊湊的二進位制掩碼,覆蓋在編輯後的權重上。令人驚訝的是,該掩碼能在訓練集上逆轉80%的編輯,在測試集上逆轉超過70%的編輯,從而證實了不同編輯共享相同的功能結構。這一發現表明,無論編輯的事實是什麼,模型都依賴於一個共同的功能子空間來實現知識修改。
進一步分析表明,該掩碼透過消除後期層中的過度注意來逆轉編輯。作者透過注意力分析發現,在編輯後的模型中,後期層會過度關注某些特定位置,而掩碼能夠抑制這種過度注意,從而恢復原始事實。為了證明這一共同機制的必要性,作者在編輯過程中注入該掩碼,結果顯示編輯成功率從98%驟降至38%。這充分說明了該共同機制對於編輯成功是必不可少的,沒有它,編輯幾乎無法生效。
一個關鍵的發現是,編輯實際上抑制而非覆蓋了原有知識。這意味著,被修改的知識並沒有被刪除或替換,而是被隱藏起來,只是模型的輸出被改變了。這解釋了為什麼ROME和MEMIT無法將更改傳播到相關事實——因為被抑制的知識仍然存在,只是被掩蓋了。當模型需要推理相關事即時,被抑制的知識仍然會影響輸出,導致編輯不一致。
該研究識別的共同功能子空間為檢測和防禦未授權編輯提供了新途徑。例如,可以透過監控該子空間的活動來發現潛在的惡意修改。此外,這一發現也對理解Transformer模型的可解釋性和安全性具有重要意義,為未來設計更魯棒的知識編輯方法提供了理論基礎。對於人工智慧社群而言,這項工作揭示了知識編輯的深層機制,有望推動模型編輯技術的進一步發展。