配对时正确,分离时错误:多模态大语言模型中模态特定神经元的解耦与编辑
最新研究发现,多模态大语言模型(MLLMs)在知识编辑时存在“编辑解耦失败”问题:虽然多模态输入下实体知识可被更新,但一旦输入分离为单模态,知识就会恢复旧值。研究者提出DECODE方法,通过显式解耦并定位模态特定神经元组,实现了跨模态触发条件下的有效知识更新。
多模态大语言模型(MLLMs)的知识编辑技术旨在高效更新模型中的事实知识,但一项来自arXiv的新研究揭示了当前范式的一个关键缺陷:编辑解耦失败。当模型通过图文配对查询触发时,实体相关知识可以成功更新;然而,当配对输入被分离为单模态(仅文本或仅图像)时,模型往往会恢复到编辑前的旧事实。该论文《Correct When Paired, Wrong When Split: Decoupling and Editing Modality-Specific Neurons in MLLMs》深入分析了这一现象。
研究团队通过大规模实证分析发现,MLLMs中的实体知识并非以统一的表示形式存储,而是分布在解耦的模态特定通路中。这意味着,面向多模态查询的更新偏向于多模态通路,无法有效传播到单模态电路,从而导致编辑解耦失败。为弥合这一差距,研究者提出了DECODE方法,该框架显式地解耦并定位模态特定的神经元组,从而实现针对性的知识编辑。
DECODE的核心思想是识别出与多模态和单模态处理相关的不同神经元群体,并分别进行更新。通过这种方式,知识更新能够同时作用于多模态和单模态触发条件,确保在不同输入形式下的一致性。大量实验证明,DECODE在各种模态触发条件下均能实现有效的知识更新,显著缓解了编辑解耦失败问题。该工作为多模态知识编辑提供了新的视角和方法,有望推动更可靠、更鲁棒的多模态大语言模型发展。
此外,该研究还揭示了MLLMs内部机制的复杂性,为未来模型设计和编辑策略提供了重要启示。研究者指出,编辑解耦失败不仅影响知识编辑的实际应用,也可能对模型的安全性和可靠性构成挑战。DECODE方法的提出,为应对这一挑战提供了可行的解决方案。