FuRA:基于谱预条件的全秩参数高效微调
FuRA是一种新型全秩参数高效微调方法,通过谱预条件保留预训练的稳健特征,在LLM和VLM微调中超越全参数微调和LoRA,其4位量化变体QFuRA也优于QLoRA。
文章情报
要点
- 全微调和LoRA等现有方法忽略预训练谱结构,导致噪声梯度扰动特征
- FuRA基于块张量列车分解,固定预训练SVD基,仅优化紧凑核心和奇异值
- 在LLaMA-3-8B常识推理上比全微调提升1.37,并适用于强化学习和视觉指令微调
- 4位量化版本QFuRA也超越QLoRA
为什么重要
这条新闻值得关注,因为全微调和LoRA等现有方法忽略预训练谱结构,导致噪声梯度扰动特征。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近日,一项名为FuRA(Full-Rank Adaptation)的新方法在AI微调领域引发广泛关注。该方法由Yequan Zhao等人提出,旨在解决全参数微调(Full FT)和参数高效微调方法(如LoRA)在微调过程中忽视预训练阶段所建立的谱结构这一根本性问题。现有方法在更新权重时未考虑预训练权重的奇异值分解(SVD)结构,导致来自有限微调数据的噪声梯度可能会破坏预训练所获得的稳健特征。研究者指出,谱预条件(spectral preconditioning)是实现高效微调的关键缺失环节:通过将每个权重矩阵重新参数化为其全秩SVD形式,并固定其中一个奇异基,可以将更新约束在预训练列空间内,从而在相同可训练参数数量下获得优于无约束全参数微调的优化方案。
基于这一洞察,FuRA提出了一种高效的块张量列车分解框架,表示为W = LSR。其中,大型核心L固定为预训练的块状SVD基,仅优化紧凑核心R和块状奇异值S。这种设计同时实现了全秩谱预条件、保持了全秩更新的表达能力,并在参数、内存和步骤时间效率上与LoRA相当。实验结果表明,FuRA在多个场景中持续超越全参数微调:在大语言模型LLaMA-3-8B的常识推理任务上提升了1.37个百分点;在数学推理的强化学习任务中表现优异;在视觉语言模型的视觉指令微调任务中也取得了领先成绩。此外,其4位量化变体QFuRA同样优于QLoRA。FuRA的代码已在GitHub上开源,为社区提供了可复现的实现。这项研究为参数高效微调领域提供了全新的思路,有望推动大模型微调技术的进一步发展。