毛利語文本轉語音模型拒絕大科技公司的價值觀
新西蘭懷卡託大學的研究人員開發了一種針對毛利語方言的文本轉語音模型,強調數據主權和社區所有權。該模型使用開源工具和少量數據,實現了6.78%的詞錯誤率,旨在為其他少數民族語言社區提供可複製的藍圖。
新西蘭以其壯麗的自然景觀聞名,但其語言景觀同樣引人入勝。在其三種官方語言中,只有毛利語(te reo Māori)可被視為土著語言。儘管只有4.3%的人口能流利使用,但全國統計顯示約30%的新西蘭人能説一些單詞或短語。
然而,當要求ChatGPT用毛利語寫作時,它會流暢地以學校教授和國家電視台播放的標準形式回答問題。Claude和Perplexity也能做到。這種令人印象深刻的語言表現建立在毛利社區和學者製作的文本和音頻之上,這些數據在未經許可的情況下被抓取和攝取,在海外處理,並通過大型科技公司擁有的界面返回給用户。對毛利人來説,這是一個問題。
“這些海外公司有資源生產運行良好的AI模型,”懷卡託大學教授兼人工智能研究所聯合主任Te Taka Keegan説,“但他們抓取了所有數據,沒有我們的輸入,我們也不擁有輸出。我們的語言是我們知識最重要的載體……然而我們看到在新西蘭以外開發的技術對知識傳輸的控制越來越多。”
出於對這種“主權數字系統”的需求,Keegan和他的碩士生Kingsley Eng着手為毛利語的一種特定方言開發高保真合成語音——即文本轉語音系統。他們所做的每一個技術決策都受到AI行業通常忽略的基本約束的影響:這個合成語音及其用於構建的一切必須保持由説該方言的人擁有。他們希望他們的產品能為世界各地的少數民族語言社區提供一個可複製的藍圖。
AI語音模型主要在英語中構建,因此將那些模型應用於其他語言可能導致錯誤。毛利語有一些特定的語言特徵,如元音長度的重要性,給AI語音系統帶來了額外挑戰。例如,“蛋糕”(keke)、“腋窩”(kēkē)和“吱吱作響”(kekē)這幾個詞僅因元音長度不同而有區別。二合字母(兩個字母發一個音)也很常見,且發音與英語不同;“wh”通常發為“f”。在毛利語中,不準確的發音會改變單詞的含義。
此外,毛利語被視為低資源語言,因為與英語或中文等語言相比,可用的訓練數據(如文本、數據集或錄製的語音)相對較少。為了解決這個問題,Keegan聘請了翻譯、教育家和語言導師Ngaringi Katipa作為工具背後同意的真人聲音。
“我們專注於我們的當地方言Waikato-Maniapoto,因為在方言中你才能看到語言的真正美麗。它們與特定地點和身份認同感緊密相連,”Keegan説。
“我們最初只錄制Ngaringi朗讀書籍段落,得到了4.5小時的數據,”Eng説,“後來,我們通過錄制Te Taka的兄弟Peter(毛利語語言學專家)提供的一份全面的句子和單詞列表(包括非常罕見的單詞)來擴展數據集。”經過清理和處理,最終的錄音時長為7小時45分鐘。
構建文本轉語音系統通常採用兩種數據輸入方法之一:基於字符(將原始字母直接傳遞給模型)或基於音素(在訓練開始前將文本轉換為語音表示)。Eng嘗試了兩種方法,“音素方法要好得多,”他説,“從一開始給模型音素規則就像給了它一個先機。”為了提供音素規則,研究人員使用了開源工具eSpeak NG,該工具包含一套貝塔版本的毛利語規則集,他們進一步調整了這套規則集。
Eng測試了三種開源神經架構——Matcha-TTS、Tacotron2和Piper——來訓練和將錄音轉換成合成語音。Piper可以在本地機器上離線運行,效果最好,因此被選為最終構建。儘管使用了不到八個小時的高質量錄音(遠低於通常建議的數百小時訓練數據),最終的AI語音效果顯著。文本轉語音研究的主要指標是詞錯誤率,百分比越低表示準確性越高。Keegan和Eng的AI語音實現了6.78%的錯誤率,按當前行業標準被認為“良好”。
在開發過程中,一位專業的毛利語評估員評估了語音的自然度、發音準確性和表現力。研究人員還邀請了68位流利的毛利語使用者聆聽人類和合成的音頻,並要求他們區分。聽眾正確識別語音的比例為65%。“我們對此感到滿意,因為一些聽眾是説話者的家庭成員——他們非常熟悉她的聲音,但仍有少數人判斷錯誤,”Keegan説。
雖然谷歌向懷卡託團隊提供了一些資金,但Keegan表示這些資金沒有附加條件,也沒有聲稱所有權。“他們説,我們聽説了你們在保護語言方面的工作,想支持你們。按你們的方式使用資金。”最終,這筆資金使他們能夠公平地補償Katipa的工作。
目前工具已準備就緒,但所有權問題仍是Keegan關注的重點。從標準知識產權角度看,語音屬於Katipa。從毛利人的觀點看,Keegan説,它屬於集體:“這是通過她的祖先傳下來的寶藏;她的角色是為她的孩子和孫子保護它。”因此,Keegan沒有公開發布語音模型,而是與Katipa所屬的三個部落(Waikato、Maniapoto和Raukawa)進行討論。“這些部落應該擁有監護權,”Keegan説,“而不是大學。”為此,Keegan找到了總部位於惠靈頓的公司Catalyst IT,該公司免費提供了一年的網站託管和運行語音模型所需的計算能力。
數據主權是土著AI社區快速增長的重點。新西蘭北部的毛利媒體組織Te Hiku Media開發了一個自動語音識別系統,對毛利語實現了92%的準確率,對雙語語音實現了82%的準確率。該組織以Kaitiakitanga許可證發佈了該模型——這是一種法律工具,規定數據只能用於毛利人民的利益。在世界其他地方,巴塞羅那超級計算中心的Aina項目發佈了Matxa,一個多方言加泰羅尼亞語文本轉語音系統,也基於開源架構。在魁北克,Michael Running Wolf領導了第一語言AI現實(FLAIR)倡議,致力於為北美各地的土著語言構建語音識別模型。
語音驅動技術,如虛擬助手、屏幕閲讀器、導航系統和智能設備,無處不在。對Keegan來説,這些工具要麼是“淨化和殖民我們語言”的方式,要麼是“用傳統知識賦予我的孫子(moko)力量”的手段。區別在於誰開發和擁有技術。“我希望我的孫子和曾孫通過我們自己的系統獲取知識。這個語音是實現這一目標的第一步。”
長期目標是使用相同的開源、社區擁有的方法論構建完整的語言模型。“它不會是一個毛利語大型語言模型,”他説,“而是一個Maniapoto大型語言模型、一個Tūhoe大型語言模型等等。”每個模型將由説該語言的人擁有並根據其語音進行訓練。雖然這是一個比文本轉語音系統更重大的工程挑戰,但懷卡託項目展示了必要的基礎設施已經存在——在最小數據上的高效訓練、基於音素的輸入、開源工具以及社區所有權的法律和治理框架。“我們已經鋪設了一個模板,以便全國其他部落可以做同樣的事情,”Keegan説,“我很樂意幫助他們完成。”