科学的遺産の架け橋:持続可能な知識移転のためのアラビア語-ロシア語並列コーパスとLLMベンチマーク
本研究では、アラビア語-ロシア語間の科学翻訳のためのベンチマークを提案する。約27,000文対からなるハイブリッド並列コーパスを構築し、科学アブストラクトと一般ドメインテキストから収集した。3つの多言語モデル(mT5-base、NLLB-200、Qwen2.5-7B)をLoRAで微調整した結果、Qwen2.5-7B(QLoRA、ランク8)が最高性能を達成:BLEU 23.15、chrF 43.89、BERTScore 0.906、COMET 0.758。ゼロショットベースラインからBLEUで+4.36、COMETで+0.051向上した。少数ショットプロンプティングでは改善が見られず、ドメイン特化の微調整が必要であることが示された。モデル、コーパス、評価コードは公開されており、アラビア語話者とロシア語話者間の科学的知識交換の障壁を低減し、SDGs 9および17に貢献する。
最近、arXivに投稿された研究(arXiv:2606.30943)で、アラビア語とロシア語という二つの主要な科学言語間のコミュニケーション障壁を低減するための、新しい並列コーパスと大規模言語モデルベンチマークが提案されました。この研究はM. K. Arabovらによって行われ、論文タイトルは「Bridging Scientific Heritage: An Arabic--Russian Parallel Corpus and LLM Benchmark for Sustainable Knowledge Transfer」です。
研究チームは、約27,000文対からなるハイブリッド並列コーパスを構築しました。コーパスは科学アブストラクトに加え、宗教、ニュース、会話などの一般ドメインテキストから収集され、モデルのドメイン適応性を高めることを目的としています。このコーパスを用いて、三つの多言語モデル(mT5-base(5.8億パラメータ)、NLLB-200 distilled 1.3B(13億パラメータ)、Qwen2.5-7B-Instruct(70億パラメータ))をLoRAで微調整し、ランク8、16、32、64の設定でテストしました。
実験の結果、Qwen2.5-7BモデルにQLoRA(ランク8)を適用した場合が最高の翻訳性能を示しました:BLEUスコア23.15、chrF 43.89、BERTScore 0.906、COMET 0.758。これはゼロショットベースラインと比較してBLEUで+4.36、COMETで+0.051の向上です。一方、三つの例を用いた少数ショットプロンプティングでは性能向上が見られず、この専門的な翻訳タスクにおいてはドメイン特化の微調整が不可欠であることが明らかになりました。また、モデル規模が大きいほど微調整後の性能が高い傾向にあるものの、パラメータ増加による利益は逓減することも確認されました。
研究者らは、モデル、コーパス、評価コードをGitHubおよびHugging Faceで公開し、学術界での利用と検証を可能にしています。この研究は、自然言語処理技術の科学翻訳への応用を推進するだけでなく、国連の持続可能な開発目標(SDGs)の達成にも直接貢献します:アラビア語話者とロシア語話者の研究者間の知識交換を強化することで、持続可能なパートナーシップ(SDG 17)を促進し、イノベーション基盤(SDG 9)の構築を支援します。この研究は、中東・北アフリカ地域とロシア間の科学協力において、言語の壁を越えて知識を共有するための強力なツールを提供するものです。