2026-05-29 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

破局的忘却のメカニズム起源：RLがSFTより回路を保持する理由

最近の研究では、強化学習（RL）が教師あり微調整（SFT）よりも事前の能力を効果的に保持することが示されています。本論文はこれをメカニズムレベルに拡張し、微調整中の回路劣化を測定する「差分回路脆弱性」を導入します。Qwen2.5-3B-Instructを科学質問応答に適用した実験では、SFTはタスク適応が速いものの回路破壊と忘却が大きく、RLは回路を保持する代わりに適応が遅いことが明らかになりました。結果は、回路保持がRLの破局的忘却に対する頑健性を説明することを示唆しています。

ソースarXiv Machine Learning著者: Jeanmely Rojas Nunez, Viraj Sawant, Nathan Allen, Nomgondalai Amgalanbaatar, Yannis Zongo, Vasu Sharma, Maheep Chaudhary

大規模言語モデルの微調整では、新しいタスクを学習する際に以前の能力を忘れてしまう「破局的忘却」が頻繁に発生します。近年の研究では、強化学習（RL）が教師あり微調整（SFT）よりも事前の能力を保持できることが示され、その理由としてポリシー勾配更新がベースポリシーに近いままであることが挙げられています。しかし、この行動レベルの優位性が内部計算回路の保持にも反映されるかどうかは不明でした。

本研究では、微調整中に回路がどの程度劣化するかをヘッドレベルで測定する「差分回路脆弱性」という新しい指標を提案し、Qwen2.5-3B-Instructモデルを科学質問応答タスクに適応させてRLとSFTを比較しました。

実験の結果、明確なメカニズム上のトレードオフが明らかになりました。SFTは対象タスクへの適応が速いものの、回路の破壊と忘却が著しく大きいのに対し、RLは適応速度は遅いもののベース回路の大部分を保持します。これらの発見は、回路保持がRLの破局的忘却に対する頑健性を説明する一因であることを示唆しています。研究コードはGitHubで公開されています。

この研究は、微調整中のメカニズム変化を理解する新たな視点を提供し、タスク適応の効率と既存能力の保持を両立する微調整手法の開発に貢献するものです。さらに、研究者たちは微調整ステップ数に応じた回路変化も評価し、SFTでは初期ステップで回路に大きな再編成が生じる一方、RLの更新はより保守的であることを確認しました。また、因果介入実験を通じて、保持された回路が元のタスク性能に寄与していることも実証しました。これらの結果は、継続学習シナリオにおいてRLが優位である理由をメカニズムレベルで説明しており、今後の微調整アルゴリズム設計に重要な指針を与えるものと言えます。