AI News HubLIVE
站内改写4 分钟阅读

毛利语文本转语音模型拒绝大科技公司的价值观

新西兰怀卡托大学的研究人员开发了一种针对毛利语方言的文本转语音模型,强调数据主权和社区所有权。该模型使用开源工具和少量数据,实现了6.78%的词错误率,旨在为其他少数民族语言社区提供可复制的蓝图。

来源IEEE Spectrum AI作者: Laurie Winkless

新西兰以其壮丽的自然景观闻名,但其语言景观同样引人入胜。在其三种官方语言中,只有毛利语(te reo Māori)可被视为土著语言。尽管只有4.3%的人口能流利使用,但全国统计显示约30%的新西兰人能说一些单词或短语。

然而,当要求ChatGPT用毛利语写作时,它会流畅地以学校教授和国家电视台播放的标准形式回答问题。Claude和Perplexity也能做到。这种令人印象深刻的语言表现建立在毛利社区和学者制作的文本和音频之上,这些数据在未经许可的情况下被抓取和摄取,在海外处理,并通过大型科技公司拥有的界面返回给用户。对毛利人来说,这是一个问题。

“这些海外公司有资源生产运行良好的AI模型,”怀卡托大学教授兼人工智能研究所联合主任Te Taka Keegan说,“但他们抓取了所有数据,没有我们的输入,我们也不拥有输出。我们的语言是我们知识最重要的载体……然而我们看到在新西兰以外开发的技术对知识传输的控制越来越多。”

出于对这种“主权数字系统”的需求,Keegan和他的硕士生Kingsley Eng着手为毛利语的一种特定方言开发高保真合成语音——即文本转语音系统。他们所做的每一个技术决策都受到AI行业通常忽略的基本约束的影响:这个合成语音及其用于构建的一切必须保持由说该方言的人拥有。他们希望他们的产品能为世界各地的少数民族语言社区提供一个可复制的蓝图。

AI语音模型主要在英语中构建,因此将那些模型应用于其他语言可能导致错误。毛利语有一些特定的语言特征,如元音长度的重要性,给AI语音系统带来了额外挑战。例如,“蛋糕”(keke)、“腋窝”(kēkē)和“吱吱作响”(kekē)这几个词仅因元音长度不同而有区别。二合字母(两个字母发一个音)也很常见,且发音与英语不同;“wh”通常发为“f”。在毛利语中,不准确的发音会改变单词的含义。

此外,毛利语被视为低资源语言,因为与英语或中文等语言相比,可用的训练数据(如文本、数据集或录制的语音)相对较少。为了解决这个问题,Keegan聘请了翻译、教育家和语言导师Ngaringi Katipa作为工具背后同意的真人声音。

“我们专注于我们的当地方言Waikato-Maniapoto,因为在方言中你才能看到语言的真正美丽。它们与特定地点和身份认同感紧密相连,”Keegan说。

“我们最初只录制Ngaringi朗读书籍段落,得到了4.5小时的数据,”Eng说,“后来,我们通过录制Te Taka的兄弟Peter(毛利语语言学专家)提供的一份全面的句子和单词列表(包括非常罕见的单词)来扩展数据集。”经过清理和处理,最终的录音时长为7小时45分钟。

构建文本转语音系统通常采用两种数据输入方法之一:基于字符(将原始字母直接传递给模型)或基于音素(在训练开始前将文本转换为语音表示)。Eng尝试了两种方法,“音素方法要好得多,”他说,“从一开始给模型音素规则就像给了它一个先机。”为了提供音素规则,研究人员使用了开源工具eSpeak NG,该工具包含一套贝塔版本的毛利语规则集,他们进一步调整了这套规则集。

Eng测试了三种开源神经架构——Matcha-TTS、Tacotron2和Piper——来训练和将录音转换成合成语音。Piper可以在本地机器上离线运行,效果最好,因此被选为最终构建。尽管使用了不到八个小时的高质量录音(远低于通常建议的数百小时训练数据),最终的AI语音效果显著。文本转语音研究的主要指标是词错误率,百分比越低表示准确性越高。Keegan和Eng的AI语音实现了6.78%的错误率,按当前行业标准被认为“良好”。

在开发过程中,一位专业的毛利语评估员评估了语音的自然度、发音准确性和表现力。研究人员还邀请了68位流利的毛利语使用者聆听人类和合成的音频,并要求他们区分。听众正确识别语音的比例为65%。“我们对此感到满意,因为一些听众是说话者的家庭成员——他们非常熟悉她的声音,但仍有少数人判断错误,”Keegan说。

虽然谷歌向怀卡托团队提供了一些资金,但Keegan表示这些资金没有附加条件,也没有声称所有权。“他们说,我们听说了你们在保护语言方面的工作,想支持你们。按你们的方式使用资金。”最终,这笔资金使他们能够公平地补偿Katipa的工作。

目前工具已准备就绪,但所有权问题仍是Keegan关注的重点。从标准知识产权角度看,语音属于Katipa。从毛利人的观点看,Keegan说,它属于集体:“这是通过她的祖先传下来的宝藏;她的角色是为她的孩子和孙子保护它。”因此,Keegan没有公开发布语音模型,而是与Katipa所属的三个部落(Waikato、Maniapoto和Raukawa)进行讨论。“这些部落应该拥有监护权,”Keegan说,“而不是大学。”为此,Keegan找到了总部位于惠灵顿的公司Catalyst IT,该公司免费提供了一年的网站托管和运行语音模型所需的计算能力。

数据主权是土著AI社区快速增长的重点。新西兰北部的毛利媒体组织Te Hiku Media开发了一个自动语音识别系统,对毛利语实现了92%的准确率,对双语语音实现了82%的准确率。该组织以Kaitiakitanga许可证发布了该模型——这是一种法律工具,规定数据只能用于毛利人民的利益。在世界其他地方,巴塞罗那超级计算中心的Aina项目发布了Matxa,一个多方言加泰罗尼亚语文本转语音系统,也基于开源架构。在魁北克,Michael Running Wolf领导了第一语言AI现实(FLAIR)倡议,致力于为北美各地的土著语言构建语音识别模型。

语音驱动技术,如虚拟助手、屏幕阅读器、导航系统和智能设备,无处不在。对Keegan来说,这些工具要么是“净化和殖民我们语言”的方式,要么是“用传统知识赋予我的孙子(moko)力量”的手段。区别在于谁开发和拥有技术。“我希望我的孙子和曾孙通过我们自己的系统获取知识。这个语音是实现这一目标的第一步。”

长期目标是使用相同的开源、社区拥有的方法论构建完整的语言模型。“它不会是一个毛利语大型语言模型,”他说,“而是一个Maniapoto大型语言模型、一个Tūhoe大型语言模型等等。”每个模型将由说该语言的人拥有并根据其语音进行训练。虽然这是一个比文本转语音系统更重大的工程挑战,但怀卡托项目展示了必要的基础设施已经存在——在最小数据上的高效训练、基于音素的输入、开源工具以及社区所有权的法律和治理框架。“我们已经铺设了一个模板,以便全国其他部落可以做同样的事情,”Keegan说,“我很乐意帮助他们完成。”