AI News HubLIVE
站内改写1 分钟阅读

PermDoRA:理解语言模型中的适配器干扰——参数空间几何的局限性

大型语言模型中的访问控制需要模块化机制,但适配器组合时存在干扰。本研究通过DoRA-RBAC框架测试了假设,发现基于几何感知的合并策略并未优于标准平均,表明干扰主要源于共享非线性表示而非参数空间几何。

来源arXiv Machine Learning作者: Gowtham Sivaramakrishnan, Sarvesha Kumar Kombaiah Seetha, Kishan Gupta Balaji, Santhosh Baradwaj Vaduvur Ranganathan

近日,一篇提交至COLM 2026的论文《PermDoRA -- Understanding Adapter Interference in Language Models: Limits of Parameter-Space Geometry》对大型语言模型(LLM)中适配器干扰的根源进行了深入探讨。该研究由Gowtham Sivaramakrishnan、Sarvesha Kumar Kombaiah Seetha、Kishan Gupta Balaji和Santhosh Baradwaj Vaduvur Ranganathan共同完成,旨在验证一个广泛持有的假设:适配器组合时的干扰源于参数更新的线性重叠,因此强制正交性或方向独立性应能提升多领域性能。

研究团队采用DoRA-RBAC框架,这是一种基于权重分解低秩适配(DoRA)的分层适配器组合方法,其中RBAC表示基于角色的访问控制。他们比较了传统的欧几里得合并策略与一种几何感知的黎曼启发式合并策略,后者通过归一化方向平均来近似弗雷歇均值。实验在LLaMA-3.1-8B和Mistral-7B两个模型上进行,覆盖了多个问答(QA)基准,包括GPQA、PubMedQA、SimpleQA和WMDP。

结果显示,在单领域任务上,DoRA-RBAC的性能与标准LoRA相当;但在多领域组合设置中,几何感知的合并并未比简单的欧几里得平均提供一致的优势。进一步的诊断分析表明,适配器更新的角度对齐程度和正交性是组合性能的弱预测因子。这些发现暗示,适配器干扰并非主要由参数空间的几何结构决定,而是与共享非线性表示中的交互作用一致。

该研究为LLM的模块化设计提供了重要见解,指出未来应更多关注表示层面的交互,而非纯几何方法。论文共18页,附有代码和数据链接,已在arXiv上公开。