豪薩語和豐貝語文本與語音資源調查:NLP開發的可用性、質量與差距
本調查系統梳理了豪薩語(約8000萬-1億母語者)和豐貝語(貝寧約200萬人使用)的公開文本與語音資源。研究發現豪薩語在新聞、百科和教育領域擁有更豐富的文本資源,而豐貝語儘管文本資源有限,但近年學術語音數據收集項目有所增長。兩種語言均被納入Masakhane基準測試。報告提出了任務特定建議,並指出了關鍵缺口,如豐貝語領域多樣化文本和豪薩語專用語音庫。
文章情報
要點
- 豪薩語文本資源多樣性優於豐貝語,覆蓋新聞、百科和教育領域。
- 豐貝語近年來在學術語音數據收集方面取得進展。
- 兩種語言均在Masakhane基準測試中有所代表,用於命名實體識別和詞性標註。
- 優先缺口包括豐貝語的領域多樣化文本和豪薩語的專用語音語料庫。
為甚麼重要
這條新聞值得關注,因為豪薩語文本資源多樣性優於豐貝語,覆蓋新聞、百科和教育領域。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
2026年4月13日,Mahounan Pericles Adjovi及其合作者在arXiv上提交了一篇題為《豪薩語和豐貝語文本與語音資源調查:NLP開發的可用性、質量與差距》的論文。該論文系統梳理了兩種西非語言的公開自然語言處理(NLP)資源:豪薩語(亞非語系,約8000萬至1億使用者)和豐貝語(尼日爾-剛果語系,貝寧約200萬人使用)。這兩種語言在資源可用性上形成鮮明對比,代表了低資源語言譜系中的兩個極端。
研究團隊通過系統搜索學術數據庫(如ACL Anthology、arXiv)、數據平台(如Hugging Face Datasets、OPUS)和網絡資源,整理出平行語料庫、單語文本集、語音數據集、預訓練模型和評估基準。對於每項資源,他們記錄了規模、領域覆蓋、格式、許可協議和可訪問性。調查涵蓋了來自多個來源的數據,如JW300、TED2020、Common Voice和Masakhane基準測試。
調查發現,豪薩語在新聞、百科和教育領域擁有更豐富的文本資源多樣性。例如,豪薩語維基百科、BBC新聞語料和高質量教育文本的存在為模型訓練提供了堅實基礎。相比之下,豐貝語文本資源極為有限,僅有一些聖經翻譯和少量網頁文本。然而,豐貝語近年來成為學術語音數據收集的焦點,研究者從貝寧的電台和大學收集了數千小時的語音數據。兩種語言都已被納入Masakhane基準測試,用於命名實體識別(NER)和詞性標註(POS)任務。豪薩語的基準規模較大,而豐貝語僅有少量標註測試集。
論文還評估了預訓練模型(如mBERT和XLM-R)在兩種語言上的表現,發現跨語言遷移學習雖有一定效果,但受限於資源匱乏。基於這些發現,研究人員提供了針對特定任務的建議:對於豐貝語,優先發展領域多樣化的文本語料庫(如新聞和社交媒體);對於豪薩語,則需構建專用的語音語料庫以支持語音識別和合成。此外,他們呼籲社區關注數字包容性,並利用現有資源促進跨語言遷移學習。該論文共8頁,包含7張表格,將發表於IEEE SDS 2026會議。完整論文可在arXiv上獲取(arXiv:2605.22828)。