區分跨語言遷移中的語言親緣關係與任務對齊
本研究通過微調七個大型語言模型(4B-671B參數)在阿拉伯語上,並評估對閃語族和非閃語族的零樣本閲讀理解,發現沒有證據表明存在閃語特異性的遷移。表現弱的模型在所有語言上都有顯著提升,而強基線模型則僅有邊際提升。思維鏈消融實驗進一步表明,這些機制主要解決的是任務格式對齊而非跨語言知識遷移。
一篇新發布的論文《區分跨語言遷移中的語言親緣關係與任務對齊》對大型語言模型的跨語言遷移機制進行了深入研究。研究人員通過微調七種不同規模的語言模型(參數量從40億到6710億不等),訓練數據為阿拉伯語,然後測試這些模型在閃語族(如希伯來語)和非閃語族對照語言上的零樣本閲讀理解能力,旨在探究語言親緣關係對遷移效果的影響。
實驗涵蓋了密集架構和混合專家(MoE)架構。令人驚訝的是,結果並未發現任何閃語族特有的遷移優勢。無論目標語言是否與阿拉伯語有親緣關係,模型的性能提升模式都是一致的:那些初始表現較差的模型在經過微調後,在所有語言上都取得了顯著的進步;而初始表現已經很好的模型,無論目標語言是什麼,提升都微乎其微。這一發現表明,微調帶來的改善並非源於語言間的知識遷移,而是模型對任務格式的適應。
為了進一步驗證這一假設,研究團隊還進行了思維鏈(Chain-of-Thought)消融實驗。他們發現,那些從微調中受益最大的模型,同樣也受益於推理時的思維鏈推理,且提升幅度相當。這強烈暗示,兩種機制實際上都在糾正模型對任務格式的把握,而不是在跨語言傳遞具體的語言知識。
該研究對當前多語言模型的訓練和評估方法提出了重要質疑,提示我們在追求跨語言能力時,需要更仔細地分離由任務對齊帶來的改進和真正的語言理解進步。論文於2026年4月提交至arXiv,並在計算機科學和人工智能領域引起廣泛關注。