2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

豪薩語和豐貝語文本與語音資源調查：NLP開發的可用性、質量與差距

本調查系統梳理了豪薩語（約8000萬-1億母語者）和豐貝語（貝寧約200萬人使用）的公開文本與語音資源。研究發現豪薩語在新聞、百科和教育領域擁有更豐富的文本資源，而豐貝語儘管文本資源有限，但近年學術語音數據收集項目有所增長。兩種語言均被納入Masakhane基準測試。報告提出了任務特定建議，並指出了關鍵缺口，如豐貝語領域多樣化文本和豪薩語專用語音庫。

來源arXiv Computational Linguistics作者: Mahounan Pericles Adjovi, Victor Olufemi, Roald Eiselen, Prasenjit Mitra

2026年4月13日，Mahounan Pericles Adjovi及其合作者在arXiv上提交了一篇題為《豪薩語和豐貝語文本與語音資源調查：NLP開發的可用性、質量與差距》的論文。該論文系統梳理了兩種西非語言的公開自然語言處理（NLP）資源：豪薩語（亞非語系，約8000萬至1億使用者）和豐貝語（尼日爾-剛果語系，貝寧約200萬人使用）。這兩種語言在資源可用性上形成鮮明對比，代表了低資源語言譜系中的兩個極端。

研究團隊通過系統搜索學術數據庫（如ACL Anthology、arXiv）、數據平台（如Hugging Face Datasets、OPUS）和網絡資源，整理出平行語料庫、單語文本集、語音數據集、預訓練模型和評估基準。對於每項資源，他們記錄了規模、領域覆蓋、格式、許可協議和可訪問性。調查涵蓋了來自多個來源的數據，如JW300、TED2020、Common Voice和Masakhane基準測試。

調查發現，豪薩語在新聞、百科和教育領域擁有更豐富的文本資源多樣性。例如，豪薩語維基百科、BBC新聞語料和高質量教育文本的存在為模型訓練提供了堅實基礎。相比之下，豐貝語文本資源極為有限，僅有一些聖經翻譯和少量網頁文本。然而，豐貝語近年來成為學術語音數據收集的焦點，研究者從貝寧的電台和大學收集了數千小時的語音數據。兩種語言都已被納入Masakhane基準測試，用於命名實體識別（NER）和詞性標註（POS）任務。豪薩語的基準規模較大，而豐貝語僅有少量標註測試集。

論文還評估了預訓練模型（如mBERT和XLM-R）在兩種語言上的表現，發現跨語言遷移學習雖有一定效果，但受限於資源匱乏。基於這些發現，研究人員提供了針對特定任務的建議：對於豐貝語，優先發展領域多樣化的文本語料庫（如新聞和社交媒體）；對於豪薩語，則需構建專用的語音語料庫以支持語音識別和合成。此外，他們呼籲社區關注數字包容性，並利用現有資源促進跨語言遷移學習。該論文共8頁，包含7張表格，將發表於IEEE SDS 2026會議。完整論文可在arXiv上獲取（arXiv:2605.22828）。