HELLoRA:混合专家模型的热门专家层层级低秩适配方法
HELLoRA是一种针对混合专家(MoE)模型的高效微调方法,仅对每层最活跃的专家附加LoRA模块,从而减少可训练参数和适配器带来的计算量,同时提升下游任务性能。在OlMoE、Mixtral和DeepSeekMoE等模型上,HELLoRA在数学推理、代码生成和安全对齐任务中均优于现有方法,例如在OlMoE上仅使用15.7%的参数,减少38.7%的FLOPs,吞吐量提升1.9倍,准确率提高9.2%。
文章情报
要点
- HELLoRA仅对MoE模型每层最频繁激活的专家附加LoRA模块,实现参数高效微调。
- 在多种MoE模型上,HELLoRA显著减少可训练参数和计算开销,同时提升性能。
- 与普通LoRA相比,HELLoRA在OlMoE上使用15.7%的参数,准确率提升9.2%。
为什么重要
这条新闻值得关注,因为HELLoRA仅对MoE模型每层最频繁激活的专家附加LoRA模块,实现参数高效微调。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
来自arXiv的一篇新论文提出了HELLoRA(Hot Experts Layer-Level Low-Rank Adaptation),这是一种专门针对混合专家(Mixture-of-Experts, MoE)大语言模型的高效微调方法。MoE模型通过稀疏激活机制,在接近恒定的每token计算量下扩展参数规模,但现有的低秩适配(LoRA)方法主要针对密集架构设计,未能充分利用MoE的稀疏性。
HELLoRA的核心思想是:不为所有专家添加适配器,而是仅对每层中激活频率最高的“热门专家”附加LoRA模块。这种激活感知的适配器放置策略不仅大幅减少了可训练参数和额外的计算量(FLOPs),还通过一种结构化正则化效应提升了下游任务性能,同时保留了预训练专家的专有知识。研究团队认为,这种正则化效果源于适配器仅作用于少数专家,从而迫使模型在微调过程中保持对预训练知识的依赖,避免过拟合。
为了在极端参数预算下检验HELLoRA的鲁棒性,研究团队进一步将其与LoRI结合,形成HELLoRI。LoRI是一种通过稀疏化下投影层进一步压缩参数的技术。HELLoRI冻结了上投影层,并对下投影层进行稀疏化,从而在极低参数预算下仍能保持较好的性能。实验在三种MoE骨干模型上进行:OlMoE-1B-7B、Mixtral-8x7B和DeepSeekMoE,覆盖数学推理(如GSM8K、MATH)、代码生成(如HumanEval、MBPP)和安全对齐(如SafetyBench)三大任务类别。
结果显示,HELLoRA在所有基准测试中均优于其他参数高效微调(PEFT)方法,包括标准LoRA、DoRA、rsLoRA等。以OlMoE为例,与标准LoRA相比,HELLoRA仅使用15.7%的可训练参数,减少了38.7%的适配器FLOPs,实现了1.9倍的训练吞吐量提升,并将准确率提高了9.2%。在DeepSeekMoE上,HELLoRA仅用23.2%的参数就超越了LoRA的性能。Mixtral-8x7B上的实验也验证了类似趋势,HELLoRA在多数任务上以更少的参数取得了更好的结果。
这些结果表明,基于激活模式的适配器放置是一种高效且实用的途径,能够将参数高效微调扩展到大型MoE语言模型中。该方法不仅降低了微调的计算和存储成本,还为未来大规模稀疏模型的适配提供了新的方向。HELLoRA的设计简单,易于集成到现有的MoE训练框架中,有望在学术界和工业界得到广泛应用。