扩散模型的正交概念擦除方法
本文提出正交概念擦除(OCE),通过乘法参数更新实现精确的概念擦除,同时保持扩散模型的生成能力,支持多概念擦除,速度快。
文章情报
要点
- 现有编辑式方法依赖加法参数更新,会干扰生成能力。
- OCE使用正交变换的乘法更新,保留神经元方向和几何角度。
- OCE引入子空间目标处理多概念擦除,性能优异。
为什么重要
这条新闻值得关注,因为现有编辑式方法依赖加法参数更新,会干扰生成能力。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近日,一篇题为《Orthogonal Concept Erasure for Diffusion Models》的论文被ICML 2026接收为口头报告,该论文提出了一种名为正交概念擦除(OCE)的新方法,旨在高效、精确地移除扩散模型中的不良或有害内容,同时保持模型的整体生成能力。
扩散模型在图像生成等领域表现出色,但有时会生成不期望的内容,例如暴力、偏见或受版权保护的图像。概念擦除技术应运而生,用于从预训练模型中移除特定概念。现有的方法主要分为两类:训练方法和编辑方法。训练方法虽然有效,但计算成本高昂,难以扩展。编辑方法则更加高效且易于部署,但难以在精确擦除概念和保持生成能力之间取得平衡。
研究团队深入分析了这一问题的根源,发现编辑方法依赖于加性参数更新。加性更新在修改参数时同时改变了神经元的幅度、方向和角度几何,而概念语义主要依赖于神经元方向,生成能力则依赖于角度几何。因此,加性更新不可避免地会在概念擦除和整体生成性能之间引入干扰。
为了解决这一问题,OCE从几何角度重新定义了概念擦除,将其转化为乘性参数更新。具体来说,OCE对每一层应用由闭式解推导出的正交变换,从而在保持神经元幅度和角度几何的同时实现精确的概念擦除。这种方法确保了神经元的相对方向和距离不受影响。
对于多概念擦除,OCE进一步引入了子空间级目标,通过结构化的子空间操作来处理不同概念间的冲突约束,实现了更有效且可扩展的擦除。实验结果表明,OCE在单概念和多概念擦除任务上均优于现有方法,能够在4.3秒内擦除多达100个概念,且对非目标内容的保留能力出色。
该论文由Yuhao Sun等六位作者完成,代码已开源在GitHub(https://github.com/HansSunY/OCE)。这一工作为扩散模型的安全应用提供了新的思路,有望推动相关技术的实际部署。