基于过程侧车的可撤销学习状态
本文提出了一种名为“过程侧车”的两系数编辑方法,用于在语言模型的安全训练阶段之后撤销已学习的状态。该方法通过估计AdamW优化过程,实现了二阶精度的记忆撤销,并在三个模型上优于朴素任务算术方法。
在大型语言模型(LLM)的训练与部署实践中,一个常见的流程是分阶段进行模型适应。首先,模型在一个公开数据集上进行技能训练,学习通用的语言理解和生成能力。接着,进入私有记忆阶段,模型被注入特定实体的记忆,例如公司内部数据或用户个人信息。最后,为了合规性,模型经历安全训练,学习拒绝输出与这些记忆实体相关的内容。然而,当需要撤销已学习的记忆时(例如,用户要求删除数据),简单的参数减法——即从当前参数中减去记忆阶段添加的更新——并不能有效工作。这是因为后续的安全训练优化过程已经改变了原始记忆向量的方向,使得直接减法无法准确移除记忆。
针对这一挑战,研究人员提出了一种名为“过程侧车”(Process Sidecars)的新方法。该方法的核心是一个两系数编辑家族,其数学表达式为:θ̂(λ,γ)=θ_AMS - λΔ_M - γR̂_{S←M}。其中,θ_AMS是经过安全训练后的模型参数,Δ_M是记忆编辑的方向向量,R̂_{S←M}是通过未来安全训练过程计算的割线近似,具体定义为R̂_{S←M}=ĵ_{S,ε}(Δ_M)-Δ_M,而ĵ_{S,ε}是从实际AdamW安全训练轨迹中提取的中心割线。实现时,ε取1(自然记忆编辑尺度),并复用θ_AMS作为正端点,同时在θ_A - Δ_M处计算一条额外的安全轨迹。
论文提供了两个关键的理论证明。第一,如果使用精确的传输方向R_{S←M}(而非割线近似),当系数(λ,γ)取(1,1)时,过程侧车可以二阶精确地恢复反事实的安全模型θ_AS——即假设没有进行记忆编辑、仅进行安全训练所得到的模型。该证明将AdamW优化器视为一个增广状态映射,包含参数、一阶矩和二阶矩。第二,证明了这种过程信息的必要性:只要未来的安全训练改变了记忆方向,任何标量任务算术编辑(如简单的加或减)都会留下一个一阶的反事实误差,而过程侧车编辑则能达到二阶精度。这意味着过程侧车在理论上具有显著优势。
为了验证方法的实际效果,研究者在三个不同的语言模型上进行了实验。实验设置中,模型首先经过记忆阶段,然后进行安全训练。之后,使用过程侧车和基线方法(朴素任务算术和过程-JVP子族,即γ=λ的简化版本)尝试撤销记忆。评估指标是保留集上的拒绝闭包性(refusal closure),即模型正确拒绝输出记忆相关内容的比率。结果显示,通过验证集选择最优的二维编辑(即优化λ和γ),过程侧车在所有试验中均优于朴素任务算术。此外,在与过程-JVP子族的配对比较中,过程侧车也全面胜出。这些结果强有力地支持了过程侧车在实现可撤销学习状态方面的有效性,为语言模型的安全部署提供了一种实用且理论扎实的技术手段。