2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:12 UTC+8

橋接科學遺產：面向可持續知識轉移的阿拉伯語-俄語平行語料庫與LLM基準

本研究構建了一個約27,000句對的阿拉伯語-俄語混合平行語料庫，涵蓋科學摘要和通用領域文本。通過微調三個多語言模型（mT5-base、NLLB-200、Qwen2.5-7B），發現Qwen2.5-7B模型在QLoRA（秩8）下表現最佳，BLEU達23.15，較零樣本基線提升4.36。少樣本提示未改善性能，表明需領域特定微調。該工作降低了科學文本的語言障礙，促進阿拉伯語和俄語研究者之間的知識交流，助力可持續發展目標（SDG 9和17）。

來源arXiv Computational Linguistics作者: M. K. Arabov

近日，一項發表在arXiv上的研究（arXiv:2606.30943）提出了一個全新的阿拉伯語-俄語平行語料庫及大語言模型基準，旨在降低這兩種重要科學語言之間的交流障礙。該研究由M. K. Arabov等人完成，論文標題為《Bridging Scientific Heritage: An Arabic--Russian Parallel Corpus and LLM Benchmark for Sustainable Knowledge Transfer》。

研究團隊構建了一個混合平行語料庫，包含約27,000個句子對。語料來源涵蓋科學摘要以及宗教、新聞、對話等通用領域文本，以提升模型的領域適應性。在此基礎上，他們選擇了三個多語言語言模型進行微調：mT5-base（5.8億參數）、NLLB-200 distilled 1.3B（13億參數）以及Qwen2.5-7B-Instruct（70億參數）。微調過程中採用了LoRA方法，分別測試了秩8、16、32和64的設置。

實驗結果顯示，Qwen2.5-7B模型搭配QLoRA（秩8）取得了最佳翻譯效果：BLEU分數達23.15，chrF為43.89，BERTScore為0.906，COMET為0.758。與零樣本基線相比，BLEU提升了4.36分，COMET提升了0.051分。然而，使用三個示例進行少樣本提示並未帶來性能提升，這表明針對該領域的專業翻譯任務，領域特定的微調是不可或缺的。研究還發現，較大的模型在微調後表現更優，但參數增長帶來的收益逐漸遞減。

研究者已通過GitHub和Hugging Face平台公開了所有模型、語料庫以及評估代碼，以供學術界進一步使用和驗證。該工作不僅推動了自然語言處理技術在科學翻譯中的應用，還直接有助於聯合國可持續發展目標（SDG）的實現：通過加強阿拉伯語和俄語研究者之間的知識交流，促進可持續夥伴關係（SDG 17），同時推動創新基礎設施建設（SDG 9）。這項研究為打破語言壁壘、實現科學知識的全球共享提供了有力工具，尤其對於中東和北非地區與俄羅斯之間的科研合作具有深遠意義。