2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

灾难性遗忘的机制起源：为何RL比SFT更善于保留电路？

最近研究表明，强化学习（RL）比监督微调（SFT）更能保持大语言模型的先前能力。本文从机制层面延伸，引入差分电路脆弱性度量，衡量微调中电路退化程度。在Qwen2.5-3B-Instruct科学问答实验中发现，SFT适应目标任务更快，但造成更大的电路破坏和遗忘，而RL保留更多基础电路，但任务适应较慢。结果表明电路保留有助于解释RL对灾难性遗忘的鲁棒性。

来源arXiv Machine Learning作者: Jeanmely Rojas Nunez, Viraj Sawant, Nathan Allen, Nomgondalai Amgalanbaatar, Yannis Zongo, Vasu Sharma, Maheep Chaudhary

灾难性遗忘是大语言模型微调中的一个常见问题，即模型在学习新任务时会忘记之前掌握的能力。近期研究发现，强化学习（RL）相比于监督微调（SFT）能更有效地保留先前能力，这归因于策略梯度更新更接近基础策略。然而，这⼀行为层面的优势是否对应着内部计算电路的更好保留，尚不清楚。

来自多所机构的研究人员提出了一种称为“差分电路脆弱性”的新度量方法，用于衡量微调过程中注意力头级别的电路退化程度。他们将该方法应用于Qwen2.5-3B-Instruct模型，并针对科学问答任务进行微调，比较RL和SFT的效果。

实验结果显示了一个清晰的机制权衡：SFT能够更快地适应目标任务，但代价是显著的电路破坏和对先前能力的遗忘；而RL虽然适应速度较慢，却保留了更大比例的基础电路。这一发现表明，电路保留可能是RL对灾难性遗忘更具鲁棒性的重要原因。研究代码已在GitHub上公开。

该工作不仅为理解微调过程中的机制变化提供了新视角，也为未来设计更温和的微调方法——既能高效适应新任务，又能最大限度保留已有能力——奠定了基础。为了进一步验证这一发现，研究人员还评估了不同微调步数下的电路变化，发现在SFT中，前几步就会导致显著的电路重组，而RL的更新则更为保守。此外，他们通过因果干预实验证实，被保留的电路确实对模型在原始任务上的表现有贡献。这些结果共同揭示了RL与SFT在机制层面的本质差异，解释了为何RL在持续学习场景中更具优势。总的来看，这项研究为理解语言模型微调中的遗忘现象提供了深入的理论支持，并可能指导未来更优微调算法的开发。