2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

扩散模型的正交概念擦除方法

本文提出正交概念擦除（OCE），通过乘法参数更新实现精确的概念擦除，同时保持扩散模型的生成能力，支持多概念擦除，速度快。

来源arXiv AI作者: Yuhao Sun, Lingyun Yu, Haoxiang Xu, Fengyuan Miao, Zhuoer Xu, Hongtao Xie

近日，一篇题为《Orthogonal Concept Erasure for Diffusion Models》的论文被ICML 2026接收为口头报告，该论文提出了一种名为正交概念擦除（OCE）的新方法，旨在高效、精确地移除扩散模型中的不良或有害内容，同时保持模型的整体生成能力。

扩散模型在图像生成等领域表现出色，但有时会生成不期望的内容，例如暴力、偏见或受版权保护的图像。概念擦除技术应运而生，用于从预训练模型中移除特定概念。现有的方法主要分为两类：训练方法和编辑方法。训练方法虽然有效，但计算成本高昂，难以扩展。编辑方法则更加高效且易于部署，但难以在精确擦除概念和保持生成能力之间取得平衡。

研究团队深入分析了这一问题的根源，发现编辑方法依赖于加性参数更新。加性更新在修改参数时同时改变了神经元的幅度、方向和角度几何，而概念语义主要依赖于神经元方向，生成能力则依赖于角度几何。因此，加性更新不可避免地会在概念擦除和整体生成性能之间引入干扰。

为了解决这一问题，OCE从几何角度重新定义了概念擦除，将其转化为乘性参数更新。具体来说，OCE对每一层应用由闭式解推导出的正交变换，从而在保持神经元幅度和角度几何的同时实现精确的概念擦除。这种方法确保了神经元的相对方向和距离不受影响。

对于多概念擦除，OCE进一步引入了子空间级目标，通过结构化的子空间操作来处理不同概念间的冲突约束，实现了更有效且可扩展的擦除。实验结果表明，OCE在单概念和多概念擦除任务上均优于现有方法，能够在4.3秒内擦除多达100个概念，且对非目标内容的保留能力出色。

该论文由Yuhao Sun等六位作者完成，代码已开源在GitHub（https://github.com/HansSunY/OCE）。这一工作为扩散模型的安全应用提供了新的思路，有望推动相关技术的实际部署。