AI News HubLIVE
站內改寫2 分鐘閱讀

FRAME:透過分數傅立葉專家混合學習適應域

引數高效微調(PEFT)通常在固定基(空間域或傅立葉域)中重新引數化權重更新。本文提出分數傅立葉專家混合(Fractional-Fourier Mixture of Experts),每個專傢俱有可學習的分數傅立葉階數,可在空間域和傅立葉域之間連續插值。透過將token路由到不同階數的專家,模型可將低秩更新置於最緊湊的域中,且專家間自然去相關,減少干擾並提升多工組合。該計算方法開銷小,在多個基準上優於現有方法。

來源arXiv Machine Learning作者: Tom Saliencro, Maya Lindqvist, Rohan Desai, Priya Nair, Daniel Whitmore

在引數高效微調(PEFT)領域,傳統方法通常將權重更新重新引數化為固定基:低秩介面卡(如LoRA)在空間域中操作,而近期譜方法(如FourierMoE)則在固定的傅立葉域中操作。然而,來自一項新研究的研究人員認為,域的選擇本身就是一個可學習的設計自由度,沒有單一基對所有任務、層或標記都是最優的。為此,他們引入了分數傅立葉專家混合(Fractional-Fourier Mixture of Experts,簡稱FRAME),這是一種混合專家介面卡,其中每個專家都帶有一個可學習的分數傅立葉階數,該階數能夠連續地在空間域(恢復原始LoRA)和傅立葉域(恢復譜介面卡)之間插值。

FRAME的核心創新在於利用分數傅立葉變換的可變階數,使得每個專家可以自適應地選擇最適合其處理token的域。透過將token路由到佔據空間-頻譜連續體上不同點的專家,模型可以將每個低秩更新置於最緊湊的域中。更重要的是,由於不同階數的分數傅立葉運算元是互不相干的(mutually incoherent),這些專家自然地去相關,從而減少了專家間的干擾,並改善了多工組合效能。每個專家的階數是一個單獨的標量引數,使用獨立的最佳化器進行訓練,而變換透過一個O(d log d)的chirp-FFT替身計算,因此FRAME相比標準的MoE-LoRA增加的計算成本微乎其微。

在實驗部分,研究人員在LLaMA-3.1-8B和Qwen2.5-7B兩個主流大語言模型上進行了全面評估。他們測試了常識推理、數學、程式碼生成和知識問答等多個基準。結果顯示,FRAME在保持小活動引數預算的同時,顯著優於強MoE-LoRA基線和譜基線,包括FlyLoRA、FourierMoE和HMoRA。進一步的分析表明,學習到的階數以可解釋的方式按任務和層專門化:例如,某些層傾向於依賴更接近空間域的專家,而其他層則偏好更接近傅立葉域的專家。這種自適應域選擇機制為引數高效微調提供了新的視角,證明了域選擇本身是一個重要的設計自由度。

總的來說,FRAME透過引入可學習的分數傅立葉階數,使得模型能夠動態選擇最優的域進行低秩更新,從而在多種任務上取得了更好的效能。該方法不僅計算高效,而且具有很好的可解釋性,為未來PEFT研究提供了一個新的方向。