FuRA:基於譜預條件的全秩參數高效微調
FuRA是一種新型全秩參數高效微調方法,通過譜預條件保留預訓練的穩健特徵,在LLM和VLM微調中超越全參數微調和LoRA,其4位量化變體QFuRA也優於QLoRA。
文章情報
要點
- 全微調和LoRA等現有方法忽略預訓練譜結構,導致噪聲梯度擾動特徵
- FuRA基於塊張量列車分解,固定預訓練SVD基,僅優化緊湊核心和奇異值
- 在LLaMA-3-8B常識推理上比全微調提升1.37,並適用於強化學習和視覺指令微調
- 4位量化版本QFuRA也超越QLoRA
為甚麼重要
這條新聞值得關注,因為全微調和LoRA等現有方法忽略預訓練譜結構,導致噪聲梯度擾動特徵。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近日,一項名為FuRA(Full-Rank Adaptation)的新方法在AI微調領域引發廣泛關注。該方法由Yequan Zhao等人提出,旨在解決全參數微調(Full FT)和參數高效微調方法(如LoRA)在微調過程中忽視預訓練階段所建立的譜結構這一根本性問題。現有方法在更新權重時未考慮預訓練權重的奇異值分解(SVD)結構,導致來自有限微調數據的噪聲梯度可能會破壞預訓練所獲得的穩健特徵。研究者指出,譜預條件(spectral preconditioning)是實現高效微調的關鍵缺失環節:通過將每個權重矩陣重新參數化為其全秩SVD形式,並固定其中一個奇異基,可以將更新約束在預訓練列空間內,從而在相同可訓練參數數量下獲得優於無約束全參數微調的優化方案。
基於這一洞察,FuRA提出了一種高效的塊張量列車分解框架,表示為W = LSR。其中,大型核心L固定為預訓練的塊狀SVD基,僅優化緊湊核心R和塊狀奇異值S。這種設計同時實現了全秩譜預條件、保持了全秩更新的表達能力,並在參數、內存和步驟時間效率上與LoRA相當。實驗結果表明,FuRA在多個場景中持續超越全參數微調:在大語言模型LLaMA-3-8B的常識推理任務上提升了1.37個百分點;在數學推理的強化學習任務中表現優異;在視覺語言模型的視覺指令微調任務中也取得了領先成績。此外,其4位量化變體QFuRA同樣優於QLoRA。FuRA的代碼已在GitHub上開源,為社區提供了可復現的實現。這項研究為參數高效微調領域提供了全新的思路,有望推動大模型微調技術的進一步發展。