超越LoRA:稀疏性诱导的适配是否更优?
一篇新论文提出Cheap LoRA (cLA)和链式循环变体c³LA,通过在现有LoRA变体中引入稀疏性,实现参数高效的微调。理论推导了泛化误差界,实验表明在11种微调方法、10个预训练模型和14个数据集上,稀疏结构化列空间限制的LoRA方法在保持竞争力的同时,可减少高达10%的训练时间和15%的峰值GPU内存。
近日,一篇题为《Beyond LoRA: Is Sparsity-Induced Adaptation Better?》的论文在arXiv上发表,对低秩适配(LoRA)及其变体进行了深入探讨,并提出了一种更简单、更经济的参数高效微调(PEFT)方法。该研究由Elijah Cadenhead、Cristian McGee、Xin Li、El Houcine Bergou和Aritra Dutta共同完成,通过引入稀疏性来优化现有LoRA变体的结构限制,从而在保持性能的同时提升训练效率。
论文首先回顾了全微调、原始LoRA及其各种变体的发展历程。LoRA通过低秩分解减少可训练参数,在内存和计算方面具有显著优势,但其结构限制对泛化性能的影响仍不明确。为此,作者提出了两种新的稀疏性诱导方法:Cheap LoRA (cLA) 和链式循环变体 (c³LA)。cLA通过固定一个低秩因子(确定性或随机性),仅训练另一个因子,从而大幅减少可训练参数。c³LA则进一步引入循环结构,实现更高效的参数表示。作者将cLA视为非对称LoRA的结构化实例,作为全微调的可控列子空间限制。
理论方面,作者首次为这类方法推导了信息论泛化误差界,为理解稀疏性在PEFT中的作用提供了理论支撑。这些界限基于互信息和PAC-Bayes框架,为比较不同LoRA变体的泛化能力提供了更一致的原则性度量。实验部分涵盖了11种微调方法、10种预训练模型(包括不同架构和规模)以及14个数据集,使用损失景观、谱分析等工具评估性能。结果表明,尽管微调结果对预训练模型和数据集等因素敏感,但将LoRA类方法的适配限制在稀疏、结构化的列空间中,在多种任务上能与参数匹配的基线方法竞争,同时显著降低训练时间和峰值GPU内存消耗(分别达10%和15%),即使在非优化的朴素稀疏实现下也是如此。
该研究不仅提供了更一致、更原则性的泛化度量方法,还表明稀疏结构是一种有效的正则化策略,能提升模型的泛化能力。论文的概述、代码和补充材料已公开,访问https://elicaden.github.io/Beyond_LoRA/即可获取。这一工作为实际应用中的成本效益优化提供了新思路,特别是在资源受限的场景下,稀疏LoRA有望成为全微调的有效替代方案。