AI News HubLIVE
サイト内リライト2 分で読了

FRAME: 分数フーリエ専門家の混合による適応ドメインの学習

パラメータ効率的なファインチューニング(PEFT)は通常、固定基底(空間ドメインまたはフーリエドメイン)で重み更新を再パラメータ化します。本論文では、各専門家が学習可能な分数フーリエ次数を持ち、空間ドメインとフーリエドメインの間を連続的に補間する分数フーリエ混合専門家を提案します。トークンを異なる次数の専門家にルーティングすることで、低ランク更新を最もコンパクトなドメインに配置でき、専門家間は自然に非相関化され、干渉を低減しマルチタスク構成を改善します。計算コストは無視でき、LLaMA-3.1-8BおよびQwen2.5-7Bの各種ベンチマークで強力なベースラインを上回ります。

ソースarXiv Machine Learning著者: Tom Saliencro, Maya Lindqvist, Rohan Desai, Priya Nair, Daniel Whitmore

パラメータ効率的なファインチューニング(PEFT)の分野では、従来の方法は重み更新を固定基底で再パラメータ化します。低ランクアダプタ(LoRAなど)は空間ドメインで動作し、最近のスペクトル手法(FourierMoEなど)は固定フーリエドメインで動作します。しかし、新しい研究の研究者らは、ドメインの選択自体が学習可能な設計自由度であると主張し、単一の基底がすべてのタスク、層、トークンに対して最適であるとは限らないと述べています。これに対処するため、彼らは分数フーリエ混合専門家(Fractional-Fourier Mixture of Experts、FRAME)を導入しました。これは、各専門家が学習可能な分数フーリエ次数を持ち、空間ドメイン(標準LoRAを回復)とフーリエドメイン(スペクトルアダプタを回復)の間を連続的に補間する混合専門家アダプタです。

FRAMEの核となる革新は、分数フーリエ変換の可変次数を利用して、各専門家が自身が処理するトークンに最も適したドメインを適応的に選択できるようにすることです。トークンを空間スペクトル連続体上の異なる点を占める専門家にルーティングすることで、モデルは各低ランク更新を最もコンパクトなドメインに配置できます。さらに重要なことに、異なる次数の分数フーリエ演算子は互いに非干渉(mutually incoherent)であるため、専門家は自然に非相関化され、専門家間の干渉が低減され、マルチタスク構成のパフォーマンスが向上します。各専門家の次数は単一のスカラーパラメータであり、別のオプティマイザで訓練されます。変換はO(d log d)のチャープFFTサロゲートで計算されるため、FRAMEは標準のMoE-LoRAに比べて計算コストがほとんど増加しません。

実験では、研究者らはLLaMA-3.1-8BおよびQwen2.5-7Bという2つの主要な大規模言語モデルで総合的な評価を行いました。常識推論、数学、コード生成、知識質問応答など、複数のベンチマークをテストしました。結果は、FRAMEがアクティブパラメータ予算を小さく保ちながら、FlyLoRA、FourierMoE、HMoRAを含む強力なMoE-LoRAベースラインやスペクトルベースラインを大幅に上回ることを示しました。さらに分析により、学習された次数はタスクやレイヤーごとに解釈可能な形で特殊化することが明らかになりました。例えば、ある層は空間ドメインに近い専門家を好む一方、他の層はフーリエドメインに近い専門家を好む傾向があります。この適応的ドメイン選択メカニズムは、パラメータ効率的なファインチューニングに新しい視点を提供し、ドメイン選択自体が重要な設計自由度であることを証明しています。

まとめると、FRAMEは学習可能な分数フーリエ次数を導入することで、モデルが低ランク更新に最適なドメインを動的に選択できるようにし、多様なタスクで優れた性能を達成しました。この手法は計算効率が高く、解釈可能性も優れており、将来のPEFT研究に新たな方向性を示しています。