ReLoRA: 知識再利用による適応手法で進化するLLMサービスの迅速な展開を実現
大規模言語モデル(LLM)が継続的に進化するサービスとして展開される中、ベースモデルの頻繁な更新により、以前にデプロイされたタスク固有のLoRAアダプタが無効になる問題が生じています。ReLoRAフレームワークは、知識再利用による再適応を効率的に行い、サービスの準備が整ったLoRAアダプタを迅速に復元し、タスク性能を維持または向上させます。このフレームワークは、ベイズ最適化を用いた適応的LoRA初期化と、スケジュール正則化付き微調整の2つの主要ステップから構成されます。実験では、ReLoRAは準備時間を最大8.9倍短縮し、精度を最大4.6%向上させることが示されています。
大規模言語モデル(LLM)は、継続的に進化するサービスとしてますます多く展開されています。このようなモデルでは、ベースモデルが頻繁に更新されるため、以前に特定のタスク向けに訓練された低ランク適応(LoRA)アダプタが、新しいベースモデルとの非互換性により機能しなくなるという課題が生じます。多数の下流モデルサービスを管理するプロバイダーにとって、更新のたびにすべてのLoRAアダプタをゼロから再トレーニングすることは計算コストが高く、サービス展開の遅延を引き起こします。一方、単純に古いアダプタを新しいモデルに適用すると、アダプタとバックボーンの非互換性によりサービス品質が低下することがよくあります。
この問題に対処するため、研究チームはReLoRAフレームワークを提案しました。これは、知識再利用による再適応フレームワークであり、進化するLLMサービス向けに、サービス準備が整ったLoRAアダプタを効率的に復元し、タスク性能を維持または向上させます。ReLoRAは、2つの主要な最適化ステップで構成されます。第1に、適応的LoRA初期化では、ベイズ最適化を活用して、以前にデプロイされたタスクアダプタとベースモデルの進化の両方からの情報を融合し、互換性を考慮した開始点を構築します。第2に、スケジュール正則化付き微調整では、最初に強い正則化でアダプタを高品質領域に迅速に誘導し、その後正則化を緩めてタスク固有の微調整を行います。この設計により、再適応のオーバーヘッドを削減しつつ、迅速なサービス品質の回復が可能になります。
広範な実験により、ReLoRAはベースラインと比較して、準備時間を最大8.9倍短縮し、精度を最大4.6%向上させることが実証されました。この成果は、LLMを継続的サービスとして実際に展開するための効率的で経済的なソリューションを提供し、サービスプロバイダーがベースモデルの更新に迅速に対応し、サービス品質と競争力を維持するのに役立ちます。さらに、ReLoRAは様々なタスクやモデルサイズに対して堅牢であり、特に大規模モデルにおいてその効果が顕著であることが示されました。