AI News HubLIVE
站内改写1 分钟阅读

区分跨语言迁移中的语言亲缘关系与任务对齐

本研究通过微调七个大型语言模型(4B-671B参数)在阿拉伯语上,并评估对闪语族和非闪语族的零样本阅读理解,发现没有证据表明存在闪语特异性的迁移。表现弱的模型在所有语言上都有显著提升,而强基线模型则仅有边际提升。思维链消融实验进一步表明,这些机制主要解决的是任务格式对齐而非跨语言知识迁移。

来源arXiv Computational Linguistics作者: Ahmed Haj Ahmed, Ruochen Zhang, Alvin Grissom II

一篇新发布的论文《区分跨语言迁移中的语言亲缘关系与任务对齐》对大型语言模型的跨语言迁移机制进行了深入研究。研究人员通过微调七种不同规模的语言模型(参数量从40亿到6710亿不等),训练数据为阿拉伯语,然后测试这些模型在闪语族(如希伯来语)和非闪语族对照语言上的零样本阅读理解能力,旨在探究语言亲缘关系对迁移效果的影响。

实验涵盖了密集架构和混合专家(MoE)架构。令人惊讶的是,结果并未发现任何闪语族特有的迁移优势。无论目标语言是否与阿拉伯语有亲缘关系,模型的性能提升模式都是一致的:那些初始表现较差的模型在经过微调后,在所有语言上都取得了显著的进步;而初始表现已经很好的模型,无论目标语言是什么,提升都微乎其微。这一发现表明,微调带来的改善并非源于语言间的知识迁移,而是模型对任务格式的适应。

为了进一步验证这一假设,研究团队还进行了思维链(Chain-of-Thought)消融实验。他们发现,那些从微调中受益最大的模型,同样也受益于推理时的思维链推理,且提升幅度相当。这强烈暗示,两种机制实际上都在纠正模型对任务格式的把握,而不是在跨语言传递具体的语言知识。

该研究对当前多语言模型的训练和评估方法提出了重要质疑,提示我们在追求跨语言能力时,需要更仔细地分离由任务对齐带来的改进和真正的语言理解进步。论文于2026年4月提交至arXiv,并在计算机科学和人工智能领域引起广泛关注。