2026-05-29 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

一掩蔽之，统御所有：编辑后的隐藏事实及其发现方法

本文研究知识编辑方法（如ROME和MEMIT）在Transformer模型中的内在机制。作者发现尽管每次编辑修改不同的权重，但所有编辑都依赖于一个共同的权重子集。通过训练一个紧凑的二进制掩码，他们成功逆转了训练集上80%的编辑和测试集上超过70%的编辑，验证了不同编辑共享共有功能结构。掩码通过消除后期层的过度注意来逆转编辑，且注入该掩码会使编辑成功率从98%骤降至38%，表明该机制是编辑成功的必要条件。研究发现编辑实际上抑制而非覆盖知识，这解释了ROME和MEMIT无法将更改传播到相关事实的原因。该发现有助于检测和防御未授权编辑。

来源arXiv Machine Learning作者: Ali Holmov, Paul Youssef, Nandi Schoots, Christin Seifert

知识编辑方法（如ROME和MEMIT）通过修改Transformer模型中的MLP权重来更新事实关联。尽管这些方法主要通过输出行为进行评估，但其内在机制仍鲜有探索。来自arXiv的一篇新论文（2605.28839）系统研究了这一问题，揭示了不同知识编辑背后潜在的统一机制。该论文已被ACL 2026 Findings接收，作者包括Ali Holmov等四位研究者。

研究人员提出，尽管每次编辑对应事实特定的权重变化，但ROME和MEMIT实际上都锁定了一组对维持编辑至关重要的共同权重子集。为了隔离这一子集，他们训练了一个紧凑的二进制掩码，覆盖在编辑后的权重上。令人惊讶的是，该掩码能在训练集上逆转80%的编辑，在测试集上逆转超过70%的编辑，从而证实了不同编辑共享相同的功能结构。这一发现表明，无论编辑的事实是什么，模型都依赖于一个共同的功能子空间来实现知识修改。

进一步分析表明，该掩码通过消除后期层中的过度注意来逆转编辑。作者通过注意力分析发现，在编辑后的模型中，后期层会过度关注某些特定位置，而掩码能够抑制这种过度注意，从而恢复原始事实。为了证明这一共同机制的必要性，作者在编辑过程中注入该掩码，结果显示编辑成功率从98%骤降至38%。这充分说明了该共同机制对于编辑成功是必不可少的，没有它，编辑几乎无法生效。

一个关键的发现是，编辑实际上抑制而非覆盖了原有知识。这意味着，被修改的知识并没有被删除或替换，而是被隐藏起来，只是模型的输出被改变了。这解释了为什么ROME和MEMIT无法将更改传播到相关事实——因为被抑制的知识仍然存在，只是被掩盖了。当模型需要推理相关事实时，被抑制的知识仍然会影响输出，导致编辑不一致。

该研究识别的共同功能子空间为检测和防御未授权编辑提供了新途径。例如，可以通过监控该子空间的活动来发现潜在的恶意修改。此外，这一发现也对理解Transformer模型的可解释性和安全性具有重要意义，为未来设计更鲁棒的知识编辑方法提供了理论基础。对于人工智能社区而言，这项工作揭示了知识编辑的深层机制，有望推动模型编辑技术的进一步发展。