AI News HubLIVE
站内改写

HELLoRA:混合專家模型的熱門專家層層級低秩適配方法

HELLoRA是一種針對混合專家(MoE)模型的高效微調方法,僅對每層最活躍的專家附加LoRA模塊,從而減少可訓練參數和適配器帶來的計算量,同時提升下游任務性能。在OlMoE、Mixtral和DeepSeekMoE等模型上,HELLoRA在數學推理、代碼生成和安全對齊任務中均優於現有方法,例如在OlMoE上僅使用15.7%的參數,減少38.7%的FLOPs,吞吐量提升1.9倍,準確率提高9.2%。

文章情報

工程師進階

要點

  • HELLoRA僅對MoE模型每層最頻繁激活的專家附加LoRA模塊,實現參數高效微調。
  • 在多種MoE模型上,HELLoRA顯著減少可訓練參數和計算開銷,同時提升性能。
  • 與普通LoRA相比,HELLoRA在OlMoE上使用15.7%的參數,準確率提升9.2%。

為甚麼重要

這條新聞值得關注,因為HELLoRA僅對MoE模型每層最頻繁激活的專家附加LoRA模塊,實現參數高效微調。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

來自arXiv的一篇新論文提出了HELLoRA(Hot Experts Layer-Level Low-Rank Adaptation),這是一種專門針對混合專家(Mixture-of-Experts, MoE)大語言模型的高效微調方法。MoE模型通過稀疏激活機制,在接近恆定的每token計算量下擴展參數規模,但現有的低秩適配(LoRA)方法主要針對密集架構設計,未能充分利用MoE的稀疏性。

HELLoRA的核心思想是:不為所有專家添加適配器,而是僅對每層中激活頻率最高的“熱門專家”附加LoRA模塊。這種激活感知的適配器放置策略不僅大幅減少了可訓練參數和額外的計算量(FLOPs),還通過一種結構化正則化效應提升了下游任務性能,同時保留了預訓練專家的專有知識。研究團隊認為,這種正則化效果源於適配器僅作用於少數專家,從而迫使模型在微調過程中保持對預訓練知識的依賴,避免過擬合。

為了在極端參數預算下檢驗HELLoRA的魯棒性,研究團隊進一步將其與LoRI結合,形成HELLoRI。LoRI是一種通過稀疏化下投影層進一步壓縮參數的技術。HELLoRI凍結了上投影層,並對下投影層進行稀疏化,從而在極低參數預算下仍能保持較好的性能。實驗在三種MoE骨幹模型上進行:OlMoE-1B-7B、Mixtral-8x7B和DeepSeekMoE,覆蓋數學推理(如GSM8K、MATH)、代碼生成(如HumanEval、MBPP)和安全對齊(如SafetyBench)三大任務類別。

結果顯示,HELLoRA在所有基準測試中均優於其他參數高效微調(PEFT)方法,包括標準LoRA、DoRA、rsLoRA等。以OlMoE為例,與標準LoRA相比,HELLoRA僅使用15.7%的可訓練參數,減少了38.7%的適配器FLOPs,實現了1.9倍的訓練吞吐量提升,並將準確率提高了9.2%。在DeepSeekMoE上,HELLoRA僅用23.2%的參數就超越了LoRA的性能。Mixtral-8x7B上的實驗也驗證了類似趨勢,HELLoRA在多數任務上以更少的參數取得了更好的結果。

這些結果表明,基於激活模式的適配器放置是一種高效且實用的途徑,能夠將參數高效微調擴展到大型MoE語言模型中。該方法不僅降低了微調的計算和存儲成本,還為未來大規模稀疏模型的適配提供了新的方向。HELLoRA的設計簡單,易於集成到現有的MoE訓練框架中,有望在學術界和工業界得到廣泛應用。