PermDoRA: 言語モデルにおけるアダプター干渉の理解 – パラメータ空間幾何の限界
大規模言語モデルのモジュール設計における一般的な仮説は、アダプター干渉が線形パラメータ更新の重複に起因するというものです。本研究ではDoRA-RBACを用いてこれを検証し、幾何学的マージ戦略が標準平均に対して一貫した優位性を持たず、直交性は弱い予測因子であることを発見しました。干渉はパラメータ空間幾何ではなく、共有非線形表現における相互作用に起因することが示唆されます。
最近、COLM 2026に提出された論文「PermDoRA -- Understanding Adapter Interference in Language Models: Limits of Parameter-Space Geometry」では、大規模言語モデル(LLM)におけるアダプター干渉の根本原因が詳しく調査されています。この研究はGowtham Sivaramakrishnan、Sarvesha Kumar Kombaiah Seetha、Kishan Gupta Balaji、Santhosh Baradwaj Vaduvur Ranganathanによって行われ、アダプター合成時の干渉が線形パラメータ更新の重複に起因するという一般的な仮説を検証しました。
研究チームは、重み分解低ランク適応(DoRA)に基づく階層的アダプター構成フレームワークであるDoRA-RBACを採用しました。従来のユークリッドマージ手法と、正規化方向平均によりフレシェ平均を近似する幾何学的なリーマンインスパイアマージ戦略を比較しました。実験はLLaMA-3.1-8BおよびMistral-7Bモデル上で、GPQA、PubMedQA、SimpleQA、WMDPを含む複数のQAベンチマークを用いて行われました。
結果、シングルドメインタスクではDoRA-RBACの性能はLoRAと同等でしたが、マルチドメイン設定では幾何学的マージは標準平均よりも一貫した利点を提供しませんでした。さらなる診断分析により、アダプター更新の角度アライメントや直交性は構成性能の弱い予測因子であることが明らかになりました。これらの発見は、アダプター干渉が主にパラメータ空間幾何によって支配されるのではなく、共有非線形表現における相互作用と一致することを示唆しています。
本研究は、LLMのモジュール設計に重要な洞察を提供し、純粋な幾何学的手法ではなく、表現レベルの相互作用に焦点を当てる必要性を示しています。論文は18ページで構成され、コードとデータへのリンクが含まれており、arXivで公開されています。