2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:12 UTC+8

桥接科学遗产：面向可持续知识转移的阿拉伯语-俄语平行语料库与LLM基准

本研究构建了一个约27,000句对的阿拉伯语-俄语混合平行语料库，涵盖科学摘要和通用领域文本。通过微调三个多语言模型（mT5-base、NLLB-200、Qwen2.5-7B），发现Qwen2.5-7B模型在QLoRA（秩8）下表现最佳，BLEU达23.15，较零样本基线提升4.36。少样本提示未改善性能，表明需领域特定微调。该工作降低了科学文本的语言障碍，促进阿拉伯语和俄语研究者之间的知识交流，助力可持续发展目标（SDG 9和17）。

来源arXiv Computational Linguistics作者: M. K. Arabov

近日，一项发表在arXiv上的研究（arXiv:2606.30943）提出了一个全新的阿拉伯语-俄语平行语料库及大语言模型基准，旨在降低这两种重要科学语言之间的交流障碍。该研究由M. K. Arabov等人完成，论文标题为《Bridging Scientific Heritage: An Arabic--Russian Parallel Corpus and LLM Benchmark for Sustainable Knowledge Transfer》。

研究团队构建了一个混合平行语料库，包含约27,000个句子对。语料来源涵盖科学摘要以及宗教、新闻、对话等通用领域文本，以提升模型的领域适应性。在此基础上，他们选择了三个多语言语言模型进行微调：mT5-base（5.8亿参数）、NLLB-200 distilled 1.3B（13亿参数）以及Qwen2.5-7B-Instruct（70亿参数）。微调过程中采用了LoRA方法，分别测试了秩8、16、32和64的设置。

实验结果显示，Qwen2.5-7B模型搭配QLoRA（秩8）取得了最佳翻译效果：BLEU分数达23.15，chrF为43.89，BERTScore为0.906，COMET为0.758。与零样本基线相比，BLEU提升了4.36分，COMET提升了0.051分。然而，使用三个示例进行少样本提示并未带来性能提升，这表明针对该领域的专业翻译任务，领域特定的微调是不可或缺的。研究还发现，较大的模型在微调后表现更优，但参数增长带来的收益逐渐递减。

研究者已通过GitHub和Hugging Face平台公开了所有模型、语料库以及评估代码，以供学术界进一步使用和验证。该工作不仅推动了自然语言处理技术在科学翻译中的应用，还直接有助于联合国可持续发展目标（SDG）的实现：通过加强阿拉伯语和俄语研究者之间的知识交流，促进可持续伙伴关系（SDG 17），同时推动创新基础设施建设（SDG 9）。这项研究为打破语言壁垒、实现科学知识的全球共享提供了有力工具，尤其对于中东和北非地区与俄罗斯之间的科研合作具有深远意义。