2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

豪萨语和丰贝语文本与语音资源调查：NLP开发的可用性、质量与差距

本调查系统梳理了豪萨语（约8000万-1亿母语者）和丰贝语（贝宁约200万人使用）的公开文本与语音资源。研究发现豪萨语在新闻、百科和教育领域拥有更丰富的文本资源，而丰贝语尽管文本资源有限，但近年学术语音数据收集项目有所增长。两种语言均被纳入Masakhane基准测试。报告提出了任务特定建议，并指出了关键缺口，如丰贝语领域多样化文本和豪萨语专用语音库。

来源arXiv Computational Linguistics作者: Mahounan Pericles Adjovi, Victor Olufemi, Roald Eiselen, Prasenjit Mitra

2026年4月13日，Mahounan Pericles Adjovi及其合作者在arXiv上提交了一篇题为《豪萨语和丰贝语文本与语音资源调查：NLP开发的可用性、质量与差距》的论文。该论文系统梳理了两种西非语言的公开自然语言处理（NLP）资源：豪萨语（亚非语系，约8000万至1亿使用者）和丰贝语（尼日尔-刚果语系，贝宁约200万人使用）。这两种语言在资源可用性上形成鲜明对比，代表了低资源语言谱系中的两个极端。

研究团队通过系统搜索学术数据库（如ACL Anthology、arXiv）、数据平台（如Hugging Face Datasets、OPUS）和网络资源，整理出平行语料库、单语文本集、语音数据集、预训练模型和评估基准。对于每项资源，他们记录了规模、领域覆盖、格式、许可协议和可访问性。调查涵盖了来自多个来源的数据，如JW300、TED2020、Common Voice和Masakhane基准测试。

调查发现，豪萨语在新闻、百科和教育领域拥有更丰富的文本资源多样性。例如，豪萨语维基百科、BBC新闻语料和高质量教育文本的存在为模型训练提供了坚实基础。相比之下，丰贝语文本资源极为有限，仅有一些圣经翻译和少量网页文本。然而，丰贝语近年来成为学术语音数据收集的焦点，研究者从贝宁的电台和大学收集了数千小时的语音数据。两种语言都已被纳入Masakhane基准测试，用于命名实体识别（NER）和词性标注（POS）任务。豪萨语的基准规模较大，而丰贝语仅有少量标注测试集。

论文还评估了预训练模型（如mBERT和XLM-R）在两种语言上的表现，发现跨语言迁移学习虽有一定效果，但受限于资源匮乏。基于这些发现，研究人员提供了针对特定任务的建议：对于丰贝语，优先发展领域多样化的文本语料库（如新闻和社交媒体）；对于豪萨语，则需构建专用的语音语料库以支持语音识别和合成。此外，他们呼吁社区关注数字包容性，并利用现有资源促进跨语言迁移学习。该论文共8页，包含7张表格，将发表于IEEE SDS 2026会议。完整论文可在arXiv上获取（arXiv:2605.22828）。