2026-06-15站内改写2 分鐘閱讀更新: 2026-06-15

超越LoRA：稀疏性誘導的適配是否更優？

一篇新論文提出Cheap LoRA (cLA)和鏈式迴圈變體c³LA，透過在現有LoRA變體中引入稀疏性，實現引數高效的微調。理論推導了泛化誤差界，實驗表明在11種微調方法、10個預訓練模型和14個資料集上，稀疏結構化列空間限制的LoRA方法在保持競爭力的同時，可減少高達10%的訓練時間和15%的峰值GPU記憶體。

來源arXiv Machine Learning作者: Elijah Cadenhead, Cristian McGee, Xin Li, El Houcine Bergou, Aritra Dutta

近日，一篇題為《Beyond LoRA: Is Sparsity-Induced Adaptation Better?》的論文在arXiv上發表，對低秩適配（LoRA）及其變體進行了深入探討，並提出了一種更簡單、更經濟的引數高效微調（PEFT）方法。該研究由Elijah Cadenhead、Cristian McGee、Xin Li、El Houcine Bergou和Aritra Dutta共同完成，透過引入稀疏性來最佳化現有LoRA變體的結構限制，從而在保持效能的同時提升訓練效率。

論文首先回顧了全微調、原始LoRA及其各種變體的發展歷程。LoRA透過低秩分解減少可訓練引數，在記憶體和計算方面具有顯著優勢，但其結構限制對泛化效能的影響仍不明確。為此，作者提出了兩種新的稀疏性誘導方法：Cheap LoRA (cLA) 和鏈式迴圈變體 (c³LA)。cLA透過固定一個低秩因子（確定性或隨機性），僅訓練另一個因子，從而大幅減少可訓練引數。c³LA則進一步引入迴圈結構，實現更高效的參數列示。作者將cLA視為非對稱LoRA的結構化例項，作為全微調的可控列子空間限制。

理論方面，作者首次為這類方法推導了資訊理論泛化誤差界，為理解稀疏性在PEFT中的作用提供了理論支撐。這些界限基於互資訊和PAC-Bayes框架，為比較不同LoRA變體的泛化能力提供了更一致的原則性度量。實驗部分涵蓋了11種微調方法、10種預訓練模型（包括不同架構和規模）以及14個資料集，使用損失景觀、譜分析等工具評估效能。結果表明，儘管微調結果對預訓練模型和資料集等因素敏感，但將LoRA類方法的適配限制在稀疏、結構化的列空間中，在多種任務上能與引數匹配的基線方法競爭，同時顯著降低訓練時間和峰值GPU記憶體消耗（分別達10%和15%），即使在非最佳化的樸素稀疏實現下也是如此。

該研究不僅提供了更一致、更原則性的泛化度量方法，還表明稀疏結構是一種有效的正則化策略，能提升模型的泛化能力。論文的概述、程式碼和補充材料已公開，訪問https://elicaden.github.io/Beyond_LoRA/即可獲取。這一工作為實際應用中的成本效益最佳化提供了新思路，特別是在資源受限的場景下，稀疏LoRA有望成為全微調的有效替代方案。