桥接科学遗产:面向可持续知识转移的阿拉伯语-俄语平行语料库与LLM基准
本研究构建了一个约27,000句对的阿拉伯语-俄语混合平行语料库,涵盖科学摘要和通用领域文本。通过微调三个多语言模型(mT5-base、NLLB-200、Qwen2.5-7B),发现Qwen2.5-7B模型在QLoRA(秩8)下表现最佳,BLEU达23.15,较零样本基线提升4.36。少样本提示未改善性能,表明需领域特定微调。该工作降低了科学文本的语言障碍,促进阿拉伯语和俄语研究者之间的知识交流,助力可持续发展目标(SDG 9和17)。
近日,一项发表在arXiv上的研究(arXiv:2606.30943)提出了一个全新的阿拉伯语-俄语平行语料库及大语言模型基准,旨在降低这两种重要科学语言之间的交流障碍。该研究由M. K. Arabov等人完成,论文标题为《Bridging Scientific Heritage: An Arabic--Russian Parallel Corpus and LLM Benchmark for Sustainable Knowledge Transfer》。
研究团队构建了一个混合平行语料库,包含约27,000个句子对。语料来源涵盖科学摘要以及宗教、新闻、对话等通用领域文本,以提升模型的领域适应性。在此基础上,他们选择了三个多语言语言模型进行微调:mT5-base(5.8亿参数)、NLLB-200 distilled 1.3B(13亿参数)以及Qwen2.5-7B-Instruct(70亿参数)。微调过程中采用了LoRA方法,分别测试了秩8、16、32和64的设置。
实验结果显示,Qwen2.5-7B模型搭配QLoRA(秩8)取得了最佳翻译效果:BLEU分数达23.15,chrF为43.89,BERTScore为0.906,COMET为0.758。与零样本基线相比,BLEU提升了4.36分,COMET提升了0.051分。然而,使用三个示例进行少样本提示并未带来性能提升,这表明针对该领域的专业翻译任务,领域特定的微调是不可或缺的。研究还发现,较大的模型在微调后表现更优,但参数增长带来的收益逐渐递减。
研究者已通过GitHub和Hugging Face平台公开了所有模型、语料库以及评估代码,以供学术界进一步使用和验证。该工作不仅推动了自然语言处理技术在科学翻译中的应用,还直接有助于联合国可持续发展目标(SDG)的实现:通过加强阿拉伯语和俄语研究者之间的知识交流,促进可持续伙伴关系(SDG 17),同时推动创新基础设施建设(SDG 9)。这项研究为打破语言壁垒、实现科学知识的全球共享提供了有力工具,尤其对于中东和北非地区与俄罗斯之间的科研合作具有深远意义。