ReLoRA: 知識複用的自適應方法,加速演化中大語言模型服務部署
大型語言模型(LLM)作為持續演化的服務部署時,基礎模型頻繁更新會導致先前部署的任務特定低秩適配(LoRA)介面卡失效。ReLoRA框架透過知識複用實現高效重新適配,快速恢復服務就緒的LoRA介面卡,同時保持或提升任務效能。該框架包含自適應LoRA初始化和帶排程正則化的微調兩個關鍵步驟。實驗表明,與基線相比,ReLoRA將準備時間縮短最高8.9倍,準確率提升最高4.6%。
大型語言模型(LLM)正越來越多地被部署為持續演化的服務。在這種模式下,基礎模型會頻繁更新,這給服務提供商帶來了一個嚴峻挑戰:先前為特定任務訓練的低秩適配(LoRA)介面卡可能因為與新基礎模型不相容而失效。對於管理大量下游模型服務的提供商來說,每次基礎模型更新後都從頭重新訓練所有介面卡,其計算成本之高會嚴重延遲服務上線。而簡單地將舊介面卡直接應用於新模型,又往往導致服務質量下降。
針對這一難題,研究團隊提出了ReLoRA框架,一種基於知識複用的重新適配方法。其核心思想是利用已有介面卡中的知識和基礎模型的演化資訊,快速恢復介面卡的高質量效能。ReLoRA主要包括兩個最佳化步驟:首先,透過自適應LoRA初始化,使用貝葉斯最佳化技術,將舊介面卡的引數與基礎模型的演化差異進行融合,構建一個相容性良好的初始點;其次,採用帶排程正則化的微調策略,初期使用強正則化將介面卡快速引導至高質量區域,後期則放鬆正則化以進行任務特定的精細調整。這種設計使得介面卡能在極短的重新適配開銷內恢復甚至提升服務效能。
實驗結果表明,ReLoRA在不同任務和模型規模上均表現出色。與從頭訓練等基線方法相比,ReLoRA將介面卡恢復至可用狀態所需的時間縮短了最高8.9倍,同時準確率提升了最高4.6%。這一成果為LLM作為持續服務的實際部署提供了高效、經濟的解決方案,有助於服務提供商快速應對基礎模型更新,保持服務質量和競爭力。此外,研究團隊還探討了ReLoRA在多種下游任務上的泛化能力,包括文本分類、問答和程式碼生成,均取得了顯著的加速效果。值得注意的是,ReLoRA對介面卡權重的初始化敏感性較低,能夠在不同隨機種子下穩定地恢復效能,這進一步增強了其實用性。