2026-06-19站内改写1 分钟阅读更新: 2026-06-19

区分跨语言迁移中的语言亲缘关系与任务对齐

本研究通过微调七个大型语言模型（4B-671B参数）在阿拉伯语上，并评估对闪语族和非闪语族的零样本阅读理解，发现没有证据表明存在闪语特异性的迁移。表现弱的模型在所有语言上都有显著提升，而强基线模型则仅有边际提升。思维链消融实验进一步表明，这些机制主要解决的是任务格式对齐而非跨语言知识迁移。

来源arXiv Computational Linguistics作者: Ahmed Haj Ahmed, Ruochen Zhang, Alvin Grissom II

一篇新发布的论文《区分跨语言迁移中的语言亲缘关系与任务对齐》对大型语言模型的跨语言迁移机制进行了深入研究。研究人员通过微调七种不同规模的语言模型（参数量从40亿到6710亿不等），训练数据为阿拉伯语，然后测试这些模型在闪语族（如希伯来语）和非闪语族对照语言上的零样本阅读理解能力，旨在探究语言亲缘关系对迁移效果的影响。

实验涵盖了密集架构和混合专家（MoE）架构。令人惊讶的是，结果并未发现任何闪语族特有的迁移优势。无论目标语言是否与阿拉伯语有亲缘关系，模型的性能提升模式都是一致的：那些初始表现较差的模型在经过微调后，在所有语言上都取得了显著的进步；而初始表现已经很好的模型，无论目标语言是什么，提升都微乎其微。这一发现表明，微调带来的改善并非源于语言间的知识迁移，而是模型对任务格式的适应。

为了进一步验证这一假设，研究团队还进行了思维链（Chain-of-Thought）消融实验。他们发现，那些从微调中受益最大的模型，同样也受益于推理时的思维链推理，且提升幅度相当。这强烈暗示，两种机制实际上都在纠正模型对任务格式的把握，而不是在跨语言传递具体的语言知识。

该研究对当前多语言模型的训练和评估方法提出了重要质疑，提示我们在追求跨语言能力时，需要更仔细地分离由任务对齐带来的改进和真正的语言理解进步。论文于2026年4月提交至arXiv，并在计算机科学和人工智能领域引起广泛关注。