2026-06-18站内改写2 分鐘閱讀更新: 2026-06-18

LLM數學引數跨語言：共享還是分離？

一項跨語言機制分析揭示了多語言大語言模型中數學相關引數在語言間部分重疊，其中英語擁有最大引數集。

來源arXiv Computational Linguistics作者: Behzad Shomali, Luisa Victor, Tim Selbach, Ali Hamza Bashir, David Berghaus, Joachim Koehler, Mehdi Ali, Markus Frey

在自然語言處理領域，多語言大語言模型（LLM）展現出強大的跨語言能力，但在數學推理等複雜任務上，不同語言的效能存在顯著差異。這一現象背後的原因一直是研究熱點：究竟這些差異源於語言特定的引數，還是共享機制在不同語言中的不同表現？為解決這一問題，來自多所機構的研究人員（Behzad Shomali等八位作者）提出了一種跨語言機制分析方法，對LLM的數學推理能力進行了深入剖析。

該研究發表於arXiv預印本（編號2606.18453），並於2026年6月16日提交，已獲ACL 2026學生研究研討會（SRW）錄用。研究團隊透過分析模型內部表徵，成功定位並比較了支援不同語言數學推理的模型引數。他們發現，各類語言中與數學相關的引數存在一定程度的重疊，且這種重疊在模型的中間層尤為集中。更重要的是，英語始終對應著最大規模的數學相關引數集，而低資源語言（如某些少數民族語言或小語種）的相關引數集則明顯較小。

這一發現表明，多語言LLM的數學推理行為既非完全語言無關，也非完全語言特定，而是呈現出部分引數跨語言共享、同時伴隨著系統性語言依賴差異的複雜模式。研究結果對於理解LLM的認知機制具有重要啟示，也為未來改進多語言模型在數學任務上的表現提供了明確方向：例如，可以透過增強低資源語言的數學引數或者最佳化中間層的共享引數來提升整體效能。

研究人員採用的方法允許他們精確定位模型中對數學推理至關重要的引數。他們比較了同一模型在不同語言輸入下的引數啟用模式，從而識別出跨語言共享和語言獨有的引數。這種分析不僅可用於數學任務，還有望推廣至其他推理領域。實驗結果顯示，中間層引數的跨語言重疊程度最高，這表明模型中間層可能編碼了語言通用的數學概念，而淺層和深層則更多地與語言特定特徵相關。

此外，研究還觀察到，英語作為高資源語言，其數學相關引數集最大，這或許與訓練資料中英語數學語料的比例較高有關。低資源語言引數集較小，可能導致在這些語言上數學推理效能下降。這一發現強調了改進低資源語言表示的重要性。未來的研究可以探索如何透過多工學習或引數共享策略來增強低資源語言的數學推理能力。

論文還提供了詳細的實驗設定和資料集資訊。研究者使用了多個語言對進行評估，涵蓋了高資源和低資源語言。他們公開了翻譯後的數學推理資料集，以便其他研究者復現和擴充套件工作。該資料集和程式碼均可在專案網站（https://math-across-languages.github.io）上獲得。

總之，這項工作為理解多語言LLM的數學推理機制提供了重要貢獻，揭示了語言依賴的複雜性，併為構建更公平、更強大的多語言AI系統奠定了基礎。