灾难性遗忘的机制起源:为何RL比SFT更善于保留电路?
最近研究表明,强化学习(RL)比监督微调(SFT)更能保持大语言模型的先前能力。本文从机制层面延伸,引入差分电路脆弱性度量,衡量微调中电路退化程度。在Qwen2.5-3B-Instruct科学问答实验中发现,SFT适应目标任务更快,但造成更大的电路破坏和遗忘,而RL保留更多基础电路,但任务适应较慢。结果表明电路保留有助于解释RL对灾难性遗忘的鲁棒性。
文章情报
要点
- SFT适应快但破坏内部电路,导致灾难性遗忘。
- RL保留更多基础模型电路,遗忘较少但任务适应较慢。
- 新度量“差分电路脆弱性”量化微调中的电路退化。
- 针对Qwen2.5-3B-Instruct科学问答模型的实验证实了机制权衡。
为什么重要
这条新闻值得关注,因为SFT适应快但破坏内部电路,导致灾难性遗忘。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
灾难性遗忘是大语言模型微调中的一个常见问题,即模型在学习新任务时会忘记之前掌握的能力。近期研究发现,强化学习(RL)相比于监督微调(SFT)能更有效地保留先前能力,这归因于策略梯度更新更接近基础策略。然而,这⼀行为层面的优势是否对应着内部计算电路的更好保留,尚不清楚。
来自多所机构的研究人员提出了一种称为“差分电路脆弱性”的新度量方法,用于衡量微调过程中注意力头级别的电路退化程度。他们将该方法应用于Qwen2.5-3B-Instruct模型,并针对科学问答任务进行微调,比较RL和SFT的效果。
实验结果显示了一个清晰的机制权衡:SFT能够更快地适应目标任务,但代价是显著的电路破坏和对先前能力的遗忘;而RL虽然适应速度较慢,却保留了更大比例的基础电路。这一发现表明,电路保留可能是RL对灾难性遗忘更具鲁棒性的重要原因。研究代码已在GitHub上公开。
该工作不仅为理解微调过程中的机制变化提供了新视角,也为未来设计更温和的微调方法——既能高效适应新任务,又能最大限度保留已有能力——奠定了基础。为了进一步验证这一发现,研究人员还评估了不同微调步数下的电路变化,发现在SFT中,前几步就会导致显著的电路重组,而RL的更新则更为保守。此外,他们通过因果干预实验证实,被保留的电路确实对模型在原始任务上的表现有贡献。这些结果共同揭示了RL与SFT在机制层面的本质差异,解释了为何RL在持续学习场景中更具优势。总的来看,这项研究为理解语言模型微调中的遗忘现象提供了深入的理论支持,并可能指导未来更优微调算法的开发。