2026-06-08 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

通过一致性驱动的强化学习提升跨语言事实回忆能力

大型语言模型在英语训练中编码了大量世界知识，但在其他语言中表达这些知识时常常失败，即跨语言事实不一致。本文提出PolyFact数据集（10万条Wikidata事实，12种语言），比较了轻量持续预训练（CPT）、监督微调（SFT）和基于GRPO的强化学习。结果表明GRPO显著优于SFT和CPT，提高了跨语言一致性和对未见语言的泛化能力。机制分析显示GRPO通过减少MLP层和注意力头的语言专门化，促进了共享跨语言表示。代码、模型和数据集已开源。

来源arXiv Computational Linguistics作者: Jonathan von Rad, Louis Arts, George Burgess, Eleftheria Kolokytha, Harry O'Donnell, Ektor Oikonomidis Doumpas, Eduardo Sanchez, Yao Lu, Pontus Stenetorp

大型语言模型（LLM）通常以英语数据为主进行训练，因此掌握了大量世界知识，但在非英语语言中可靠地表达这些知识的能力却往往不足，这种现象被称为跨语言事实不一致。为了解决这一问题，研究人员引入了PolyFact，这是一个大规模平行多语言事实问答数据集，包含10万条来源于Wikidata的事实，覆盖12种类型多样的语言。

利用PolyFact数据集，研究团队对比了三种提升跨语言事实回忆率的方法：轻量持续预训练（CPT）、监督微调（SFT）以及基于组相对策略优化（GRPO）的强化学习。实验在Qwen-2.5-7B和OLMo-2-1124-7B两个模型上进行。结果显示，GRPO在提升跨语言一致性和对未见语言的泛化能力方面，始终优于SFT，而基于平行数据的CPT只能带来有限的额外收益。

进一步的机制分析表明，GRPO通过减少多层感知机（MLP）层和注意力头中的语言专门化，重组了多语言路由机制，从而促进了更共享的跨语言表示。这一发现解释了GRPO为何能有效改善跨语言事实回忆。

研究团队已经公开了所有代码、模型和数据集，以便其他研究者复现和进一步探索。该论文目前正在EMNLP 2026审稿中。