AI News HubLIVE
站内改写1 分鐘閱讀

PermDoRA:理解語言模型中的介面卡干擾——引數空間幾何的侷限性

大型語言模型中的訪問控制需要模組化機制,但介面卡組合時存在干擾。本研究透過DoRA-RBAC框架測試了假設,發現基於幾何感知的合併策略並未優於標準平均,表明干擾主要源於共享非線性表示而非引數空間幾何。

來源arXiv Machine Learning作者: Gowtham Sivaramakrishnan, Sarvesha Kumar Kombaiah Seetha, Kishan Gupta Balaji, Santhosh Baradwaj Vaduvur Ranganathan

近日,一篇提交至COLM 2026的論文《PermDoRA -- Understanding Adapter Interference in Language Models: Limits of Parameter-Space Geometry》對大型語言模型(LLM)中介面卡干擾的根源進行了深入探討。該研究由Gowtham Sivaramakrishnan、Sarvesha Kumar Kombaiah Seetha、Kishan Gupta Balaji和Santhosh Baradwaj Vaduvur Ranganathan共同完成,旨在驗證一個廣泛持有的假設:介面卡組合時的干擾源於引數更新的線性重疊,因此強制正交性或方向獨立性應能提升多領域效能。

研究團隊採用DoRA-RBAC框架,這是一種基於權重分解低秩適配(DoRA)的分層介面卡組合方法,其中RBAC表示基於角色的訪問控制。他們比較了傳統的歐幾里得合併策略與一種幾何感知的黎曼啟發式合併策略,後者透過歸一化方向平均來近似弗雷歇均值。實驗在LLaMA-3.1-8B和Mistral-7B兩個模型上進行,覆蓋了多個問答(QA)基準,包括GPQA、PubMedQA、SimpleQA和WMDP。

結果顯示,在單領域任務上,DoRA-RBAC的效能與標準LoRA相當;但在多領域組合設定中,幾何感知的合併並未比簡單的歐幾里得平均提供一致的優勢。進一步的診斷分析表明,介面卡更新的角度對齊程度和正交性是組合效能的弱預測因子。這些發現暗示,介面卡干擾並非主要由引數空間的幾何結構決定,而是與共享非線性表示中的互動作用一致。

該研究為LLM的模組化設計提供了重要見解,指出未來應更多關注表示層面的互動,而非純幾何方法。論文共18頁,附有程式碼和資料連結,已在arXiv上公開。