LLM數學參數跨語言:共享還是分離?
一項跨語言機制分析揭示了多語言大語言模型中數學相關參數在語言間部分重疊,其中英語擁有最大參數集。
在自然語言處理領域,多語言大語言模型(LLM)展現出強大的跨語言能力,但在數學推理等複雜任務上,不同語言的性能存在顯著差異。這一現象背後的原因一直是研究熱點:究竟這些差異源於語言特定的參數,還是共享機制在不同語言中的不同表現?為解決這一問題,來自多所機構的研究人員(Behzad Shomali等八位作者)提出了一種跨語言機制分析方法,對LLM的數學推理能力進行了深入剖析。
該研究發表於arXiv預印本(編號2606.18453),並於2026年6月16日提交,已獲ACL 2026學生研究研討會(SRW)錄用。研究團隊通過分析模型內部表徵,成功定位並比較了支持不同語言數學推理的模型參數。他們發現,各類語言中與數學相關的參數存在一定程度的重疊,且這種重疊在模型的中間層尤為集中。更重要的是,英語始終對應着最大規模的數學相關參數集,而低資源語言(如某些少數民族語言或小語種)的相關參數集則明顯較小。
這一發現表明,多語言LLM的數學推理行為既非完全語言無關,也非完全語言特定,而是呈現出部分參數跨語言共享、同時伴隨着系統性語言依賴差異的複雜模式。研究結果對於理解LLM的認知機制具有重要啓示,也為未來改進多語言模型在數學任務上的表現提供了明確方向:例如,可以通過增強低資源語言的數學參數或者優化中間層的共享參數來提升整體性能。
研究人員採用的方法允許他們精確定位模型中對數學推理至關重要的參數。他們比較了同一模型在不同語言輸入下的參數激活模式,從而識別出跨語言共享和語言獨有的參數。這種分析不僅可用於數學任務,還有望推廣至其他推理領域。實驗結果顯示,中間層參數的跨語言重疊程度最高,這表明模型中間層可能編碼了語言通用的數學概念,而淺層和深層則更多地與語言特定特徵相關。
此外,研究還觀察到,英語作為高資源語言,其數學相關參數集最大,這或許與訓練數據中英語數學語料的比例較高有關。低資源語言參數集較小,可能導致在這些語言上數學推理性能下降。這一發現強調了改進低資源語言表示的重要性。未來的研究可以探索如何通過多任務學習或參數共享策略來增強低資源語言的數學推理能力。
論文還提供了詳細的實驗設置和數據集信息。研究者使用了多個語言對進行評估,涵蓋了高資源和低資源語言。他們公開了翻譯後的數學推理數據集,以便其他研究者復現和擴展工作。該數據集和代碼均可在項目網站(https://math-across-languages.github.io)上獲得。
總之,這項工作為理解多語言LLM的數學推理機制提供了重要貢獻,揭示了語言依賴的複雜性,併為構建更公平、更強大的多語言AI系統奠定了基礎。