FRAME:通過分數傅里葉專家混合學習適應域
參數高效微調(PEFT)通常在固定基(空間域或傅里葉域)中重新參數化權重更新。本文提出分數傅里葉專家混合(Fractional-Fourier Mixture of Experts),每個專傢俱有可學習的分數傅里葉階數,可在空間域和傅里葉域之間連續插值。通過將token路由到不同階數的專家,模型可將低秩更新置於最緊湊的域中,且專家間自然去相關,減少干擾並提升多任務組合。該計算方法開銷小,在多個基準上優於現有方法。
在參數高效微調(PEFT)領域,傳統方法通常將權重更新重新參數化為固定基:低秩適配器(如LoRA)在空間域中操作,而近期譜方法(如FourierMoE)則在固定的傅里葉域中操作。然而,來自一項新研究的研究人員認為,域的選擇本身就是一個可學習的設計自由度,沒有單一基對所有任務、層或標記都是最優的。為此,他們引入了分數傅里葉專家混合(Fractional-Fourier Mixture of Experts,簡稱FRAME),這是一種混合專家適配器,其中每個專家都帶有一個可學習的分數傅里葉階數,該階數能夠連續地在空間域(恢復原始LoRA)和傅里葉域(恢復譜適配器)之間插值。
FRAME的核心創新在於利用分數傅里葉變換的可變階數,使得每個專家可以自適應地選擇最適合其處理token的域。通過將token路由到佔據空間-頻譜連續體上不同點的專家,模型可以將每個低秩更新置於最緊湊的域中。更重要的是,由於不同階數的分數傅里葉算子是互不相干的(mutually incoherent),這些專家自然地去相關,從而減少了專家間的干擾,並改善了多任務組合性能。每個專家的階數是一個單獨的標量參數,使用獨立的優化器進行訓練,而變換通過一個O(d log d)的chirp-FFT替身計算,因此FRAME相比標準的MoE-LoRA增加的計算成本微乎其微。
在實驗部分,研究人員在LLaMA-3.1-8B和Qwen2.5-7B兩個主流大語言模型上進行了全面評估。他們測試了常識推理、數學、代碼生成和知識問答等多個基準。結果顯示,FRAME在保持小活動參數預算的同時,顯著優於強MoE-LoRA基線和譜基線,包括FlyLoRA、FourierMoE和HMoRA。進一步的分析表明,學習到的階數以可解釋的方式按任務和層專門化:例如,某些層傾向於依賴更接近空間域的專家,而其他層則偏好更接近傅里葉域的專家。這種自適應域選擇機制為參數高效微調提供了新的視角,證明了域選擇本身是一個重要的設計自由度。
總的來説,FRAME通過引入可學習的分數傅里葉階數,使得模型能夠動態選擇最優的域進行低秩更新,從而在多種任務上取得了更好的性能。該方法不僅計算高效,而且具有很好的可解釋性,為未來PEFT研究提供了一個新的方向。