AI News HubLIVE
站内改写2 分鐘閱讀

超越LoRA:稀疏性誘導的適配是否更優?

一篇新論文提出Cheap LoRA (cLA)和鏈式迴圈變體c³LA,透過在現有LoRA變體中引入稀疏性,實現引數高效的微調。理論推導了泛化誤差界,實驗表明在11種微調方法、10個預訓練模型和14個資料集上,稀疏結構化列空間限制的LoRA方法在保持競爭力的同時,可減少高達10%的訓練時間和15%的峰值GPU記憶體。

來源arXiv Machine Learning作者: Elijah Cadenhead, Cristian McGee, Xin Li, El Houcine Bergou, Aritra Dutta

近日,一篇題為《Beyond LoRA: Is Sparsity-Induced Adaptation Better?》的論文在arXiv上發表,對低秩適配(LoRA)及其變體進行了深入探討,並提出了一種更簡單、更經濟的引數高效微調(PEFT)方法。該研究由Elijah Cadenhead、Cristian McGee、Xin Li、El Houcine Bergou和Aritra Dutta共同完成,透過引入稀疏性來最佳化現有LoRA變體的結構限制,從而在保持效能的同時提升訓練效率。

論文首先回顧了全微調、原始LoRA及其各種變體的發展歷程。LoRA透過低秩分解減少可訓練引數,在記憶體和計算方面具有顯著優勢,但其結構限制對泛化效能的影響仍不明確。為此,作者提出了兩種新的稀疏性誘導方法:Cheap LoRA (cLA) 和鏈式迴圈變體 (c³LA)。cLA透過固定一個低秩因子(確定性或隨機性),僅訓練另一個因子,從而大幅減少可訓練引數。c³LA則進一步引入迴圈結構,實現更高效的參數列示。作者將cLA視為非對稱LoRA的結構化例項,作為全微調的可控列子空間限制。

理論方面,作者首次為這類方法推導了資訊理論泛化誤差界,為理解稀疏性在PEFT中的作用提供了理論支撐。這些界限基於互資訊和PAC-Bayes框架,為比較不同LoRA變體的泛化能力提供了更一致的原則性度量。實驗部分涵蓋了11種微調方法、10種預訓練模型(包括不同架構和規模)以及14個資料集,使用損失景觀、譜分析等工具評估效能。結果表明,儘管微調結果對預訓練模型和資料集等因素敏感,但將LoRA類方法的適配限制在稀疏、結構化的列空間中,在多種任務上能與引數匹配的基線方法競爭,同時顯著降低訓練時間和峰值GPU記憶體消耗(分別達10%和15%),即使在非最佳化的樸素稀疏實現下也是如此。

該研究不僅提供了更一致、更原則性的泛化度量方法,還表明稀疏結構是一種有效的正則化策略,能提升模型的泛化能力。論文的概述、程式碼和補充材料已公開,訪問https://elicaden.github.io/Beyond_LoRA/即可獲取。這一工作為實際應用中的成本效益最佳化提供了新思路,特別是在資源受限的場景下,稀疏LoRA有望成為全微調的有效替代方案。