超越LoRA:稀疏性誘導的適配是否更優?
一篇新論文提出Cheap LoRA (cLA)和鏈式循環變體c³LA,通過在現有LoRA變體中引入稀疏性,實現參數高效的微調。理論推導了泛化誤差界,實驗表明在11種微調方法、10個預訓練模型和14個數據集上,稀疏結構化列空間限制的LoRA方法在保持競爭力的同時,可減少高達10%的訓練時間和15%的峯值GPU內存。
近日,一篇題為《Beyond LoRA: Is Sparsity-Induced Adaptation Better?》的論文在arXiv上發表,對低秩適配(LoRA)及其變體進行了深入探討,並提出了一種更簡單、更經濟的參數高效微調(PEFT)方法。該研究由Elijah Cadenhead、Cristian McGee、Xin Li、El Houcine Bergou和Aritra Dutta共同完成,通過引入稀疏性來優化現有LoRA變體的結構限制,從而在保持性能的同時提升訓練效率。
論文首先回顧了全微調、原始LoRA及其各種變體的發展歷程。LoRA通過低秩分解減少可訓練參數,在內存和計算方面具有顯著優勢,但其結構限制對泛化性能的影響仍不明確。為此,作者提出了兩種新的稀疏性誘導方法:Cheap LoRA (cLA) 和鏈式循環變體 (c³LA)。cLA通過固定一個低秩因子(確定性或隨機性),僅訓練另一個因子,從而大幅減少可訓練參數。c³LA則進一步引入循環結構,實現更高效的參數表示。作者將cLA視為非對稱LoRA的結構化實例,作為全微調的可控列子空間限制。
理論方面,作者首次為這類方法推導了信息論泛化誤差界,為理解稀疏性在PEFT中的作用提供了理論支撐。這些界限基於互信息和PAC-Bayes框架,為比較不同LoRA變體的泛化能力提供了更一致的原則性度量。實驗部分涵蓋了11種微調方法、10種預訓練模型(包括不同架構和規模)以及14個數據集,使用損失景觀、譜分析等工具評估性能。結果表明,儘管微調結果對預訓練模型和數據集等因素敏感,但將LoRA類方法的適配限制在稀疏、結構化的列空間中,在多種任務上能與參數匹配的基線方法競爭,同時顯著降低訓練時間和峯值GPU內存消耗(分別達10%和15%),即使在非優化的樸素稀疏實現下也是如此。
該研究不僅提供了更一致、更原則性的泛化度量方法,還表明稀疏結構是一種有效的正則化策略,能提升模型的泛化能力。論文的概述、代碼和補充材料已公開,訪問https://elicaden.github.io/Beyond_LoRA/即可獲取。這一工作為實際應用中的成本效益優化提供了新思路,特別是在資源受限的場景下,稀疏LoRA有望成為全微調的有效替代方案。