ReLoRA: 知識複用的自適應方法,加速演化中大語言模型服務部署
大型語言模型(LLM)作為持續演化的服務部署時,基礎模型頻繁更新會導致先前部署的任務特定低秩適配(LoRA)適配器失效。ReLoRA框架通過知識複用實現高效重新適配,快速恢復服務就緒的LoRA適配器,同時保持或提升任務性能。該框架包含自適應LoRA初始化和帶調度正則化的微調兩個關鍵步驟。實驗表明,與基線相比,ReLoRA將準備時間縮短最高8.9倍,準確率提升最高4.6%。
大型語言模型(LLM)正越來越多地被部署為持續演化的服務。在這種模式下,基礎模型會頻繁更新,這給服務提供商帶來了一個嚴峻挑戰:先前為特定任務訓練的低秩適配(LoRA)適配器可能因為與新基礎模型不兼容而失效。對於管理大量下游模型服務的提供商來説,每次基礎模型更新後都從頭重新訓練所有適配器,其計算成本之高會嚴重延遲服務上線。而簡單地將舊適配器直接應用於新模型,又往往導致服務質量下降。
針對這一難題,研究團隊提出了ReLoRA框架,一種基於知識複用的重新適配方法。其核心思想是利用已有適配器中的知識和基礎模型的演化信息,快速恢復適配器的高質量性能。ReLoRA主要包括兩個優化步驟:首先,通過自適應LoRA初始化,使用貝葉斯優化技術,將舊適配器的參數與基礎模型的演化差異進行融合,構建一個兼容性良好的初始點;其次,採用帶調度正則化的微調策略,初期使用強正則化將適配器快速引導至高質量區域,後期則放鬆正則化以進行任務特定的精細調整。這種設計使得適配器能在極短的重新適配開銷內恢復甚至提升服務性能。
實驗結果表明,ReLoRA在不同任務和模型規模上均表現出色。與從頭訓練等基線方法相比,ReLoRA將適配器恢復至可用狀態所需的時間縮短了最高8.9倍,同時準確率提升了最高4.6%。這一成果為LLM作為持續服務的實際部署提供了高效、經濟的解決方案,有助於服務提供商快速應對基礎模型更新,保持服務質量和競爭力。此外,研究團隊還探討了ReLoRA在多種下游任務上的泛化能力,包括文本分類、問答和代碼生成,均取得了顯著的加速效果。值得注意的是,ReLoRA對適配器權重的初始化敏感性較低,能夠在不同隨機種子下穩定地恢復性能,這進一步增強了其實用性。