橋接科學遺產:面向可持續知識轉移的阿拉伯語-俄語平行語料庫與LLM基準
本研究構建了一個約27,000句對的阿拉伯語-俄語混合平行語料庫,涵蓋科學摘要和通用領域文本。通過微調三個多語言模型(mT5-base、NLLB-200、Qwen2.5-7B),發現Qwen2.5-7B模型在QLoRA(秩8)下表現最佳,BLEU達23.15,較零樣本基線提升4.36。少樣本提示未改善性能,表明需領域特定微調。該工作降低了科學文本的語言障礙,促進阿拉伯語和俄語研究者之間的知識交流,助力可持續發展目標(SDG 9和17)。
近日,一項發表在arXiv上的研究(arXiv:2606.30943)提出了一個全新的阿拉伯語-俄語平行語料庫及大語言模型基準,旨在降低這兩種重要科學語言之間的交流障礙。該研究由M. K. Arabov等人完成,論文標題為《Bridging Scientific Heritage: An Arabic--Russian Parallel Corpus and LLM Benchmark for Sustainable Knowledge Transfer》。
研究團隊構建了一個混合平行語料庫,包含約27,000個句子對。語料來源涵蓋科學摘要以及宗教、新聞、對話等通用領域文本,以提升模型的領域適應性。在此基礎上,他們選擇了三個多語言語言模型進行微調:mT5-base(5.8億參數)、NLLB-200 distilled 1.3B(13億參數)以及Qwen2.5-7B-Instruct(70億參數)。微調過程中採用了LoRA方法,分別測試了秩8、16、32和64的設置。
實驗結果顯示,Qwen2.5-7B模型搭配QLoRA(秩8)取得了最佳翻譯效果:BLEU分數達23.15,chrF為43.89,BERTScore為0.906,COMET為0.758。與零樣本基線相比,BLEU提升了4.36分,COMET提升了0.051分。然而,使用三個示例進行少樣本提示並未帶來性能提升,這表明針對該領域的專業翻譯任務,領域特定的微調是不可或缺的。研究還發現,較大的模型在微調後表現更優,但參數增長帶來的收益逐漸遞減。
研究者已通過GitHub和Hugging Face平台公開了所有模型、語料庫以及評估代碼,以供學術界進一步使用和驗證。該工作不僅推動了自然語言處理技術在科學翻譯中的應用,還直接有助於聯合國可持續發展目標(SDG)的實現:通過加強阿拉伯語和俄語研究者之間的知識交流,促進可持續夥伴關係(SDG 17),同時推動創新基礎設施建設(SDG 9)。這項研究為打破語言壁壘、實現科學知識的全球共享提供了有力工具,尤其對於中東和北非地區與俄羅斯之間的科研合作具有深遠意義。