2026-05-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

災難性遺忘的機制起源：為何RL比SFT更善於保留電路？

最近研究表明，強化學習（RL）比監督微調（SFT）更能保持大語言模型的先前能力。本文從機制層面延伸，引入差分電路脆弱性度量，衡量微調中電路退化程度。在Qwen2.5-3B-Instruct科學問答實驗中發現，SFT適應目標任務更快，但造成更大的電路破壞和遺忘，而RL保留更多基礎電路，但任務適應較慢。結果表明電路保留有助於解釋RL對災難性遺忘的魯棒性。

來源arXiv Machine Learning作者: Jeanmely Rojas Nunez, Viraj Sawant, Nathan Allen, Nomgondalai Amgalanbaatar, Yannis Zongo, Vasu Sharma, Maheep Chaudhary

災難性遺忘是大語言模型微調中的一個常見問題，即模型在學習新任務時會忘記之前掌握的能力。近期研究發現，強化學習（RL）相比於監督微調（SFT）能更有效地保留先前能力，這歸因於策略梯度更新更接近基礎策略。然而，這⼀行為層面的優勢是否對應著內部計算電路的更好保留，尚不清楚。

來自多所機構的研究人員提出了一種稱為“差分電路脆弱性”的新度量方法，用於衡量微調過程中注意力頭級別的電路退化程度。他們將該方法應用於Qwen2.5-3B-Instruct模型，並針對科學問答任務進行微調，比較RL和SFT的效果。

實驗結果顯示了一個清晰的機制權衡：SFT能夠更快地適應目標任務，但代價是顯著的電路破壞和對先前能力的遺忘；而RL雖然適應速度較慢，卻保留了更大比例的基礎電路。這一發現表明，電路保留可能是RL對災難性遺忘更具魯棒性的重要原因。研究程式碼已在GitHub上公開。

該工作不僅為理解微調過程中的機制變化提供了新視角，也為未來設計更溫和的微調方法——既能高效適應新任務，又能最大限度保留已有能力——奠定了基礎。為了進一步驗證這一發現，研究人員還評估了不同微調步數下的電路變化，發現在SFT中，前幾步就會導致顯著的電路重組，而RL的更新則更為保守。此外，他們透過因果乾預實驗證實，被保留的電路確實對模型在原始任務上的表現有貢獻。這些結果共同揭示了RL與SFT在機制層面的本質差異，解釋了為何RL在持續學習場景中更具優勢。總的來看，這項研究為理解語言模型微調中的遺忘現象提供了深入的理論支援，並可能指導未來更優微調演算法的開發。