AI News HubLIVE
站内改写

災難性遺忘的機制起源:為何RL比SFT更善於保留電路?

最近研究表明,強化學習(RL)比監督微調(SFT)更能保持大語言模型的先前能力。本文從機制層面延伸,引入差分電路脆弱性度量,衡量微調中電路退化程度。在Qwen2.5-3B-Instruct科學問答實驗中發現,SFT適應目標任務更快,但造成更大的電路破壞和遺忘,而RL保留更多基礎電路,但任務適應較慢。結果表明電路保留有助於解釋RL對災難性遺忘的魯棒性。

文章情報

工程師進階

要點

  • SFT適應快但破壞內部電路,導致災難性遺忘。
  • RL保留更多基礎模型電路,遺忘較少但任務適應較慢。
  • 新度量“差分電路脆弱性”量化微調中的電路退化。
  • 針對Qwen2.5-3B-Instruct科學問答模型的實驗證實了機制權衡。

為什麼重要

這條新聞值得關注,因為SFT適應快但破壞內部電路,導致災難性遺忘。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

災難性遺忘是大語言模型微調中的一個常見問題,即模型在學習新任務時會忘記之前掌握的能力。近期研究發現,強化學習(RL)相比於監督微調(SFT)能更有效地保留先前能力,這歸因於策略梯度更新更接近基礎策略。然而,這⼀行為層面的優勢是否對應著內部計算電路的更好保留,尚不清楚。

來自多所機構的研究人員提出了一種稱為“差分電路脆弱性”的新度量方法,用於衡量微調過程中注意力頭級別的電路退化程度。他們將該方法應用於Qwen2.5-3B-Instruct模型,並針對科學問答任務進行微調,比較RL和SFT的效果。

實驗結果顯示了一個清晰的機制權衡:SFT能夠更快地適應目標任務,但代價是顯著的電路破壞和對先前能力的遺忘;而RL雖然適應速度較慢,卻保留了更大比例的基礎電路。這一發現表明,電路保留可能是RL對災難性遺忘更具魯棒性的重要原因。研究程式碼已在GitHub上公開。

該工作不僅為理解微調過程中的機制變化提供了新視角,也為未來設計更溫和的微調方法——既能高效適應新任務,又能最大限度保留已有能力——奠定了基礎。為了進一步驗證這一發現,研究人員還評估了不同微調步數下的電路變化,發現在SFT中,前幾步就會導致顯著的電路重組,而RL的更新則更為保守。此外,他們透過因果乾預實驗證實,被保留的電路確實對模型在原始任務上的表現有貢獻。這些結果共同揭示了RL與SFT在機制層面的本質差異,解釋了為何RL在持續學習場景中更具優勢。總的來看,這項研究為理解語言模型微調中的遺忘現象提供了深入的理論支援,並可能指導未來更優微調演算法的開發。