LLM数学参数跨语言:共享还是分离?
一项跨语言机制分析揭示了多语言大语言模型中数学相关参数在语言间部分重叠,其中英语拥有最大参数集。
在自然语言处理领域,多语言大语言模型(LLM)展现出强大的跨语言能力,但在数学推理等复杂任务上,不同语言的性能存在显著差异。这一现象背后的原因一直是研究热点:究竟这些差异源于语言特定的参数,还是共享机制在不同语言中的不同表现?为解决这一问题,来自多所机构的研究人员(Behzad Shomali等八位作者)提出了一种跨语言机制分析方法,对LLM的数学推理能力进行了深入剖析。
该研究发表于arXiv预印本(编号2606.18453),并于2026年6月16日提交,已获ACL 2026学生研究研讨会(SRW)录用。研究团队通过分析模型内部表征,成功定位并比较了支持不同语言数学推理的模型参数。他们发现,各类语言中与数学相关的参数存在一定程度的重叠,且这种重叠在模型的中间层尤为集中。更重要的是,英语始终对应着最大规模的数学相关参数集,而低资源语言(如某些少数民族语言或小语种)的相关参数集则明显较小。
这一发现表明,多语言LLM的数学推理行为既非完全语言无关,也非完全语言特定,而是呈现出部分参数跨语言共享、同时伴随着系统性语言依赖差异的复杂模式。研究结果对于理解LLM的认知机制具有重要启示,也为未来改进多语言模型在数学任务上的表现提供了明确方向:例如,可以通过增强低资源语言的数学参数或者优化中间层的共享参数来提升整体性能。
研究人员采用的方法允许他们精确定位模型中对数学推理至关重要的参数。他们比较了同一模型在不同语言输入下的参数激活模式,从而识别出跨语言共享和语言独有的参数。这种分析不仅可用于数学任务,还有望推广至其他推理领域。实验结果显示,中间层参数的跨语言重叠程度最高,这表明模型中间层可能编码了语言通用的数学概念,而浅层和深层则更多地与语言特定特征相关。
此外,研究还观察到,英语作为高资源语言,其数学相关参数集最大,这或许与训练数据中英语数学语料的比例较高有关。低资源语言参数集较小,可能导致在这些语言上数学推理性能下降。这一发现强调了改进低资源语言表示的重要性。未来的研究可以探索如何通过多任务学习或参数共享策略来增强低资源语言的数学推理能力。
论文还提供了详细的实验设置和数据集信息。研究者使用了多个语言对进行评估,涵盖了高资源和低资源语言。他们公开了翻译后的数学推理数据集,以便其他研究者复现和扩展工作。该数据集和代码均可在项目网站(https://math-across-languages.github.io)上获得。
总之,这项工作为理解多语言LLM的数学推理机制提供了重要贡献,揭示了语言依赖的复杂性,并为构建更公平、更强大的多语言AI系统奠定了基础。