AI News HubLIVE
站内改写2 分钟阅读

FRAME:通过分数傅里叶专家混合学习适应域

参数高效微调(PEFT)通常在固定基(空间域或傅里叶域)中重新参数化权重更新。本文提出分数傅里叶专家混合(Fractional-Fourier Mixture of Experts),每个专家具有可学习的分数傅里叶阶数,可在空间域和傅里叶域之间连续插值。通过将token路由到不同阶数的专家,模型可将低秩更新置于最紧凑的域中,且专家间自然去相关,减少干扰并提升多任务组合。该计算方法开销小,在多个基准上优于现有方法。

来源arXiv Machine Learning作者: Tom Saliencro, Maya Lindqvist, Rohan Desai, Priya Nair, Daniel Whitmore

在参数高效微调(PEFT)领域,传统方法通常将权重更新重新参数化为固定基:低秩适配器(如LoRA)在空间域中操作,而近期谱方法(如FourierMoE)则在固定的傅里叶域中操作。然而,来自一项新研究的研究人员认为,域的选择本身就是一个可学习的设计自由度,没有单一基对所有任务、层或标记都是最优的。为此,他们引入了分数傅里叶专家混合(Fractional-Fourier Mixture of Experts,简称FRAME),这是一种混合专家适配器,其中每个专家都带有一个可学习的分数傅里叶阶数,该阶数能够连续地在空间域(恢复原始LoRA)和傅里叶域(恢复谱适配器)之间插值。

FRAME的核心创新在于利用分数傅里叶变换的可变阶数,使得每个专家可以自适应地选择最适合其处理token的域。通过将token路由到占据空间-频谱连续体上不同点的专家,模型可以将每个低秩更新置于最紧凑的域中。更重要的是,由于不同阶数的分数傅里叶算子是互不相干的(mutually incoherent),这些专家自然地去相关,从而减少了专家间的干扰,并改善了多任务组合性能。每个专家的阶数是一个单独的标量参数,使用独立的优化器进行训练,而变换通过一个O(d log d)的chirp-FFT替身计算,因此FRAME相比标准的MoE-LoRA增加的计算成本微乎其微。

在实验部分,研究人员在LLaMA-3.1-8B和Qwen2.5-7B两个主流大语言模型上进行了全面评估。他们测试了常识推理、数学、代码生成和知识问答等多个基准。结果显示,FRAME在保持小活动参数预算的同时,显著优于强MoE-LoRA基线和谱基线,包括FlyLoRA、FourierMoE和HMoRA。进一步的分析表明,学习到的阶数以可解释的方式按任务和层专门化:例如,某些层倾向于依赖更接近空间域的专家,而其他层则偏好更接近傅里叶域的专家。这种自适应域选择机制为参数高效微调提供了新的视角,证明了域选择本身是一个重要的设计自由度。

总的来说,FRAME通过引入可学习的分数傅里叶阶数,使得模型能够动态选择最优的域进行低秩更新,从而在多种任务上取得了更好的性能。该方法不仅计算高效,而且具有很好的可解释性,为未来PEFT研究提供了一个新的方向。