AI News HubLIVE
サイト内リライト5 分で読了

マオリ語テキスト読み上げモデル、ビッグテックの価値観を拒否

ワイカト大学の研究者らは、マオリ語の方言向けテキスト読み上げモデルを開発し、データ主権とコミュニティ所有権を重視した。オープンソースツールと少量のデータを使用し、単語誤り率6.78%を達成。他の少数言語コミュニティの再現可能なモデルとなることを目指す。

ソースIEEE Spectrum AI著者: Laurie Winkless

ニュージーランドはその劇的な風景で有名だが、その言語景観も同様に興味深い。公用語3つのうち、先住民言語と言えるのはマオリ語(te reo Māori)だけである。人口の4.3%しか流暢に話せないものの、全国統計では約30%のニュージーランド人が数語以上のフレーズを話すことができる。

しかしChatGPTにマオリ語で書くよう頼むと、学校で教えられ国営テレビで放送されている標準化された形式で流暢に答える。ClaudeやPerplexityも同様だ。この印象的な言語性能は、マオリコミュニティや学者が制作したテキストと音声に基づいており、それらは許可なくスクレイピングされ、海外で処理され、大規模テクノロジー企業が所有するインターフェースを通じてユーザーに返される。マオリにとって、それは問題である。

「これらの海外企業は、うまく機能するAIモデルを生み出すリソースを持っています」と、ワイカト大学教授兼人工知能研究所共同所長のTe Taka Keegan氏は言う。「しかし彼らは私たちのインプットなしにすべてのデータをスクレイピングし、私たちはアウトプットを所有していません。私たちの言語は知識を伝える最も重要な媒体です…それなのに、アオテアロア(ニュージーランド)の外部で開発されたテクノロジーが、その知識の伝達をますますコントロールするようになっています。」

この「主権的デジタルシステム」の必要性に動機づけられ、Keegan氏と当時修士課程の学生だったKingsley Eng氏は、マオリ語の特定の方言向けに高忠実度の合成音声、つまりテキスト読み上げシステムの開発に着手した。二人が行ったすべての技術的決定は、AIセクターが通常無視する基本的な制約によって形作られた。つまり、この合成音声とその構築に使用されたすべてのものは、その方言を話す人々の所有物であり続けなければならないということだ。彼らが生み出したものは、世界中の他の少数言語コミュニティにとって再現可能な青写真となることを願っている。

AI音声モデルは主に英語で構築されるため、それらのモデルを他の言語に適用するとエラーが発生する可能性がある。マオリ語には母音の長さの重要性など、AI音声システムにさらなる課題をもたらす特定の言語的特徴がある。例えば、「ケーキ」(keke)、「脇の下」(kēkē)、「きしむ」(kekē)という単語は、母音の長さだけが異なる。二重字(2文字で1音を表す)も一般的で、英語とは異なる発音になる。「wh」は通常「f」と発音される。マオリ語では、不正確な発音が単語の意味を変えてしまう。

さらに、マオリ語は低リソース言語とみなされている。なぜなら英語や中国語などの言語に比べ、デジタル形式で利用可能なテキスト、データセット、録音音声の形でのトレーニングデータが比較的少ないからだ。この問題に対処するため、Keegan氏は翻訳者、教育者、言語メンターであるNgaringi Katipa氏を、ツールの背後にある同意を得た人間の声として起用した。

「私たちは地元の方言であるWaikato-Maniapotoに焦点を当てました。なぜなら方言の中にこそ言語の真の美しさが見られるからです。方言は特定の場所とアイデンティティ感覚に結びついています」とKeegan氏は言う。

「最初はNgaringiに本の一節を読み上げてもらい、4.5時間のデータを得ました」と、現在は精密工具メーカーExtecの機械学習エンジニアであるEng氏は言う。「その後、Te Takaの兄弟でマオリ語学の専門家であるPeter氏から提供された、非常に珍しい単語を含む包括的な文と単語のリストを録音してデータセットを拡張しました。」クリーニングと処理を経て、最終的な録音時間は7時間45分になった。

テキスト読み上げシステムの構築には、一般に2つのデータ入力アプローチがある。1つ目は文字ベースで、生の文字をそのままモデルに渡す。2つ目は音素ベースで、テキストをまず音声表現(各単語がどのように聞こえるかの記述)に変換してからトレーニングを開始する。

「両方試しましたが、音素アプローチの方がはるかに優れていました」とEng氏は言う。「最初からモデルに音素ルールを与えることは、先行スタートのようなものでした。」音素は、特定の文字グループがどのように聞こえるかをモデルに効果的に伝え、「学習の一部をスキップできる」と彼は言う。モデルに音素ルールを提供するため、研究者らはオープンソースツールのeSpeak NGを使用した。これにはベータ版のマオリ語ルールセットが含まれており、それをさらに適応させた。

Eng氏は3つのオープンソースニューラルアーキテクチャ(Matcha-TTS、Tacotron2、Piper)をテストし、録音を合成音声にトレーニングして変換した。Piperはローカルマシン上でオフライン実行でき、最高の結果が得られたため、最終ビルドに選ばれた。

8時間未満の高品質録音(通常テキスト読み上げモデルのトレーニングに推奨される数百時間よりもかなり少ない)を使用したにもかかわらず、最終的なAI音声は効果的だった。テキスト読み上げ研究で使用される主要な指標は単語誤り率であり、パーセンテージが低いほど精度が高いことを示す。Keegan氏とEng氏のAI音声は6.78%の誤り率を達成し、現在の業界基準で「良好」とみなされている。

開発プロセス全体を通じて、専門のマオリ語言語評価者が自然さ、発音の正確さ、表現力の観点から音声を評価した。研究者らはまた、68名の流暢なマオリ語話者を招待して人間と合成音声の両方を聞かせ、どちらかを識別するよう依頼した。聞き手は65%の確率で正しく識別した。「話者の家族メンバーである聞き手の中には、彼女の声をよく知っているのに、それでも間違える人がいたので、私たちは満足しています」とKeegan氏は言う。

Googleはワイカトチームにいくらかの資金を提供したが、Keegan氏はそれには条件がなく、所有権も主張されなかったと言う。「彼らは、言語保存に関するあなたの仕事を聞き、支援したいと思ったと言いました。補助金は好きなように使ってください。」最終的に、それによってKatipa氏の仕事に公正に報いることができたと彼は言う。

ツールは使用準備が整ったが、所有権の問題はKeegan氏の最優先事項であり続けている。標準的な知的財産の観点からは、音声はKatipa氏に属する。マオリの観点からは、Keegan氏はそれが共同体に属すると言う。「それは彼女の先祖から受け継がれてきた宝物です。そして彼女の役割は、それを子供や孫のために守ることです。」

そのため、音声モデルを公に公開するのではなく、Keegan氏はKatipa氏が所属する3つのイウィ(部族)、すなわちWaikato、Maniapoto、Raukawaと協議している。「この管理権は、大学ではなく、彼らにあるべきです」とKeegan氏は言う。

そのために、Keegan氏はウェリントンに拠点を置く企業Catalyst ITを見つけ、同社は1年間のウェブサイトホスティングと音声モデルの実行に必要な計算能力を無償提供した。

データ主権は先住民AIコミュニティで急速に注目を集めている。ニュージーランド北部のマオリメディア組織Te Hiku Mediaは、マオリ語で92%、バイリンガル音声で82%の正確さを達成する自動音声認識システムを開発した。同組織はKaitiakitangaライセンス(データはマオリ人民の利益のためにのみ使用できるとする法的手段)の下でモデルをリリースした。世界の他の地域では、バルセロナスーパーコンピューティングセンターのAinaプロジェクトが、同じくオープンソースアーキテクチャ上に構築された多方言カタルーニャ語テキスト読み上げシステムMatxaをリリースした。ケベックでは、Michael Running WolfがFirst Languages AI Reality(FLAIR)イニシアチブを主導しており、北米全域の先住民言語向け音声認識モデルの構築に取り組んでいる。

音声駆動テクノロジー(バーチャルアシスタント、スクリーンリーダー、ナビゲーションシステム、スマートデバイスなど)は遍在している。Keegan氏にとって、これらのツールは「私たちの言語を無菌化し植民地化する」方法か、あるいは「私のモコ(孫)に伝統的な知識を与える」手段のどちらかになり得る。違いは、誰がテクノロジーを開発し所有するかにある、と彼は言う。「私は私の孫やひ孫が自分たちのシステムを通じて知識にアクセスできるようにしたい。この音声はそれを達成するための第一歩です。」

長期的には、同じオープンソースでコミュニティ所有の方法論を使って完全な言語モデルを構築することを目指している。「それはマオリ語の大規模言語モデルにはなりません」と彼は言う。「それはManiapoto大規模言語モデル、Tūhoe大規模言語モデルなどになります。」各モデルは、その言語を話す人々によって所有され、彼らの音声でトレーニングされる。

それはテキスト読み上げシステムよりもはるかに重要なエンジニアリング上の課題だが、ワイカトプロジェクトは必要なインフラがすでに存在することを示している。すなわち、最小限のデータでの効率的なトレーニング、音素ベースの入力、オープンソースツール、そしてコミュニティ所有権のための法的・ガバナンスフレームワークである。「私たちは、国内の他のイウィが同じことができるようにテンプレートを用意しました」とKeegan氏は言う。「私は彼らがそれを実行するのを喜んで支援します。」