HELLoRA:混合專家模型的熱門專家層層級低秩適配方法
HELLoRA是一種針對混合專家(MoE)模型的高效微調方法,僅對每層最活躍的專家附加LoRA模組,從而減少可訓練引數和介面卡帶來的計算量,同時提升下游任務效能。在OlMoE、Mixtral和DeepSeekMoE等模型上,HELLoRA在數學推理、程式碼生成和安全對齊任務中均優於現有方法,例如在OlMoE上僅使用15.7%的引數,減少38.7%的FLOPs,吞吐量提升1.9倍,準確率提高9.2%。
文章情報
要點
- HELLoRA僅對MoE模型每層最頻繁啟用的專家附加LoRA模組,實現引數高效微調。
- 在多種MoE模型上,HELLoRA顯著減少可訓練引數和計算開銷,同時提升效能。
- 與普通LoRA相比,HELLoRA在OlMoE上使用15.7%的引數,準確率提升9.2%。
為什麼重要
這條新聞值得關注,因為HELLoRA僅對MoE模型每層最頻繁啟用的專家附加LoRA模組,實現引數高效微調。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
來自arXiv的一篇新論文提出了HELLoRA(Hot Experts Layer-Level Low-Rank Adaptation),這是一種專門針對混合專家(Mixture-of-Experts, MoE)大語言模型的高效微調方法。MoE模型透過稀疏啟用機制,在接近恆定的每token計算量下擴充套件引數規模,但現有的低秩適配(LoRA)方法主要針對密集架構設計,未能充分利用MoE的稀疏性。
HELLoRA的核心思想是:不為所有專家新增介面卡,而是僅對每層中啟用頻率最高的“熱門專家”附加LoRA模組。這種啟用感知的介面卡放置策略不僅大幅減少了可訓練引數和額外的計算量(FLOPs),還透過一種結構化正則化效應提升了下游任務效能,同時保留了預訓練專家的專有知識。研究團隊認為,這種正則化效果源於介面卡僅作用於少數專家,從而迫使模型在微調過程中保持對預訓練知識的依賴,避免過擬合。
為了在極端引數預算下檢驗HELLoRA的魯棒性,研究團隊進一步將其與LoRI結合,形成HELLoRI。LoRI是一種透過稀疏化下投影層進一步壓縮引數的技術。HELLoRI凍結了上投影層,並對下投影層進行稀疏化,從而在極低引數預算下仍能保持較好的效能。實驗在三種MoE骨幹模型上進行:OlMoE-1B-7B、Mixtral-8x7B和DeepSeekMoE,覆蓋數學推理(如GSM8K、MATH)、程式碼生成(如HumanEval、MBPP)和安全對齊(如SafetyBench)三大任務類別。
結果顯示,HELLoRA在所有基準測試中均優於其他引數高效微調(PEFT)方法,包括標準LoRA、DoRA、rsLoRA等。以OlMoE為例,與標準LoRA相比,HELLoRA僅使用15.7%的可訓練引數,減少了38.7%的介面卡FLOPs,實現了1.9倍的訓練吞吐量提升,並將準確率提高了9.2%。在DeepSeekMoE上,HELLoRA僅用23.2%的引數就超越了LoRA的效能。Mixtral-8x7B上的實驗也驗證了類似趨勢,HELLoRA在多數任務上以更少的引數取得了更好的結果。
這些結果表明,基於啟用模式的介面卡放置是一種高效且實用的途徑,能夠將引數高效微調擴充套件到大型MoE語言模型中。該方法不僅降低了微調的計算和儲存成本,還為未來大規模稀疏模型的適配提供了新的方向。HELLoRA的設計簡單,易於整合到現有的MoE訓練框架中,有望在學術界和工業界得到廣泛應用。