超越LoRA:你能擊敗最流行的微調技術嗎?
LoRA是目前最流行的參數高效微調(PEFT)技術,但研究表明其他方法在某些任務上表現更好。本文介紹了Hugging Face的PEFT庫及其基準測試,探討了如何根據具體需求選擇合適的PEFT技術,並指出LoRA並非總是最佳選擇。
當您計劃以參數高效的方式微調模型時,不要侷限於LoRA。LoRA(Low-Rank Adaptation)是參數高效微調(PEFT)技術中最流行的一種,但研究表明,其他方法可能在某些任務上表現更好。Hugging Face的PEFT庫實現了多種PEFT技術,並提供統一的API和基準測試,幫助用户做出明智選擇。
PEFT技術通過僅微調少量參數,顯著降低內存需求,同時支持量化和多任務微調。LoRA之所以流行,部分原因是它早期出現並得到廣泛支持,但這也可能導致用户忽略更好的選擇。論文中聲稱優於LoRA的技術很多,但由於研究偏差和可比性不足,這些結果往往不可靠。例如,一項研究發現,僅通過調整學習率,LoRA就能匹配那些聲稱更好的PEFT技術(https://arxiv.org/abs/2602.04998)。
Hugging Face的PEFT基準測試在相同條件下評估多種技術,包括測試性能、內存使用、運行時間和檢查點大小。針對LLM數學推理(MetaMathQA)和圖像生成(貓玩偶數據集)任務的測試顯示,LoRA雖然表現不錯,但並非在所有指標上都最優。在數學任務中,LoRA(使用秩穩定初始化)達到53.2%的測試準確率,峯值內存22.6 GB;而Lily達到54.9%準確率但需要25.6 GB內存,BEFT僅需20.2 GB內存但準確率為32.9%。普通LoRA(未優化)僅達到48.1%準確率。在圖像生成任務中,OFT在相似度得分(0.708對0.697)和內存使用(9.01 GB對9.97 GB)上均優於LoRA。
因此,用户應根據自己的優先級(如準確性、內存、速度等)選擇PEFT技術。PEFT庫允許用户輕鬆對比不同技術,並貢獻自己的實驗。總之,不要默認選擇LoRA,探索其他可能性可能會帶來更好的結果。需要注意的是,基準測試的超參數選擇可能影響結果,但社區可以通過貢獻來改進。