AI News HubLIVE
站内改写1 分钟阅读

通过一致性驱动的强化学习提升跨语言事实回忆能力

大型语言模型在英语训练中编码了大量世界知识,但在其他语言中表达这些知识时常常失败,即跨语言事实不一致。本文提出PolyFact数据集(10万条Wikidata事实,12种语言),比较了轻量持续预训练(CPT)、监督微调(SFT)和基于GRPO的强化学习。结果表明GRPO显著优于SFT和CPT,提高了跨语言一致性和对未见语言的泛化能力。机制分析显示GRPO通过减少MLP层和注意力头的语言专门化,促进了共享跨语言表示。代码、模型和数据集已开源。

来源arXiv Computational Linguistics作者: Jonathan von Rad, Louis Arts, George Burgess, Eleftheria Kolokytha, Harry O'Donnell, Ektor Oikonomidis Doumpas, Eduardo Sanchez, Yao Lu, Pontus Stenetorp

大型语言模型(LLM)通常以英语数据为主进行训练,因此掌握了大量世界知识,但在非英语语言中可靠地表达这些知识的能力却往往不足,这种现象被称为跨语言事实不一致。为了解决这一问题,研究人员引入了PolyFact,这是一个大规模平行多语言事实问答数据集,包含10万条来源于Wikidata的事实,覆盖12种类型多样的语言。

利用PolyFact数据集,研究团队对比了三种提升跨语言事实回忆率的方法:轻量持续预训练(CPT)、监督微调(SFT)以及基于组相对策略优化(GRPO)的强化学习。实验在Qwen-2.5-7B和OLMo-2-1124-7B两个模型上进行。结果显示,GRPO在提升跨语言一致性和对未见语言的泛化能力方面,始终优于SFT,而基于平行数据的CPT只能带来有限的额外收益。

进一步的机制分析表明,GRPO通过减少多层感知机(MLP)层和注意力头中的语言专门化,重组了多语言路由机制,从而促进了更共享的跨语言表示。这一发现解释了GRPO为何能有效改善跨语言事实回忆。

研究团队已经公开了所有代码、模型和数据集,以便其他研究者复现和进一步探索。该论文目前正在EMNLP 2026审稿中。