SAGE:最终遗忘向量的保留感知事后净化方法
SAGE是一种事后净化方法,用于修复大语言模型遗忘过程中对保留能力的损害。通过提取保留激活几何特征并求解封闭优化目标,SAGE能抑制与高能保留方向对齐的更新分量,同时保留遗忘载体,从而缓解遗忘与保留之间的权衡。实验表明,该方法在多种遗忘方法、模型规模和基准测试中均能有效提升保留性能。
大型语言模型(LLM)的遗忘技术旨在从模型中移除不期望的知识或行为,同时尽量不损害模型在保留知识上的表现。然而,当前的遗忘方法普遍存在遗忘与保留之间的权衡,即为了彻底遗忘某些信息,模型可能会对保留知识的记忆能力造成损伤。为了解决这一难题,来自研究机构的研究人员提出了一种事后净化方法——SAGE(Spectral Activation-GEometry Sanitization,谱激活-几何净化)。该方法能够在不需要重新运行原始遗忘流程的情况下,对最终的更新向量进行源无关的修正。
SAGE的核心思想是利用一个小的保留代理模块收集真实模块输入,提取其主导的激活几何结构,然后求解一个源锚定的优化目标。这个优化目标具有闭式解,可以高效计算。具体来说,SAGE通过计算保留代理的协方差矩阵,并提取其前K个主成分,从而得到高能保留方向。然后,它将原始更新向量在这些方向上的分量进行抑制,同时保留与这些方向正交的分量。这样,SAGE能够确保遗忘过程主要影响需要遗忘的内容,而尽量减少对保留知识的干扰。
研究团队在多种遗忘方法(如梯度上升、知识蒸馏、负例微调等)、不同规模的模型(从数百万参数到数十亿参数,例如GPT-2、LLaMA-7B等)以及多个基准测试(如TOFU、WMDP等)上进行了实验验证。实验结果表明,SAGE一致地缓解了保留-遗忘权衡,显著提升了保留性能,而且在某些情况下甚至能够完全恢复原始的保留能力。该工作将最终向量的后处理识别为机器遗忘中一个实用且尚未充分探索的方向,为未来的研究提供了新的思路。SAGE的代码和模型将在GitHub上开源,以便社区复现和进一步研究。此外,该方法还可以与其他后处理技术结合使用,进一步提高遗忘效果。