2026-06-15站内改写2 分钟阅读更新: 2026-06-15

超越LoRA：稀疏性诱导的适配是否更优？

一篇新论文提出Cheap LoRA (cLA)和链式循环变体c³LA，通过在现有LoRA变体中引入稀疏性，实现参数高效的微调。理论推导了泛化误差界，实验表明在11种微调方法、10个预训练模型和14个数据集上，稀疏结构化列空间限制的LoRA方法在保持竞争力的同时，可减少高达10%的训练时间和15%的峰值GPU内存。

来源arXiv Machine Learning作者: Elijah Cadenhead, Cristian McGee, Xin Li, El Houcine Bergou, Aritra Dutta

近日，一篇题为《Beyond LoRA: Is Sparsity-Induced Adaptation Better?》的论文在arXiv上发表，对低秩适配（LoRA）及其变体进行了深入探讨，并提出了一种更简单、更经济的参数高效微调（PEFT）方法。该研究由Elijah Cadenhead、Cristian McGee、Xin Li、El Houcine Bergou和Aritra Dutta共同完成，通过引入稀疏性来优化现有LoRA变体的结构限制，从而在保持性能的同时提升训练效率。

论文首先回顾了全微调、原始LoRA及其各种变体的发展历程。LoRA通过低秩分解减少可训练参数，在内存和计算方面具有显著优势，但其结构限制对泛化性能的影响仍不明确。为此，作者提出了两种新的稀疏性诱导方法：Cheap LoRA (cLA) 和链式循环变体 (c³LA)。cLA通过固定一个低秩因子（确定性或随机性），仅训练另一个因子，从而大幅减少可训练参数。c³LA则进一步引入循环结构，实现更高效的参数表示。作者将cLA视为非对称LoRA的结构化实例，作为全微调的可控列子空间限制。

理论方面，作者首次为这类方法推导了信息论泛化误差界，为理解稀疏性在PEFT中的作用提供了理论支撑。这些界限基于互信息和PAC-Bayes框架，为比较不同LoRA变体的泛化能力提供了更一致的原则性度量。实验部分涵盖了11种微调方法、10种预训练模型（包括不同架构和规模）以及14个数据集，使用损失景观、谱分析等工具评估性能。结果表明，尽管微调结果对预训练模型和数据集等因素敏感，但将LoRA类方法的适配限制在稀疏、结构化的列空间中，在多种任务上能与参数匹配的基线方法竞争，同时显著降低训练时间和峰值GPU内存消耗（分别达10%和15%），即使在非优化的朴素稀疏实现下也是如此。

该研究不仅提供了更一致、更原则性的泛化度量方法，还表明稀疏结构是一种有效的正则化策略，能提升模型的泛化能力。论文的概述、代码和补充材料已公开，访问https://elicaden.github.io/Beyond_LoRA/即可获取。这一工作为实际应用中的成本效益优化提供了新思路，特别是在资源受限的场景下，稀疏LoRA有望成为全微调的有效替代方案。