AI News HubLIVE
站内改写

彌合穩定性與表現力之間的鴻溝:面向低資源口語模型的合成資料擴充套件與偏好對齊

研究人員發現,在低資源語言的口語模型中使用合成資料會導致“穩定性-表現力鴻溝”,並提出兩種自對齊框架(DGSA和TDSC),能夠恢復韻律變異性,超越ElevenLabs和Gemini Pro等商業系統,實現寮國語的首次零樣本人聲克隆。

文章情報

工程師進階

要點

  • 低資源語言的口語模型在合成資料訓練時面臨音素準確度與韻律表現力之間的權衡。
  • 提出的解耦引導自對齊(DGSA)透過分離韻律和音色來恢復表現力。
  • 對於資料極度匱乏的情況,溫度驅動自批判(TDSC)透過自動探索和過濾穩定生成過程。
  • 該方法優於ElevenLabs和Gemini Pro,並實現了寮國語的首次零樣本人聲克隆。

為什麼重要

這條新聞值得關注,因為低資源語言的口語模型在合成資料訓練時面臨音素準確度與韻律表現力之間的權衡。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

口語模型(SLM)透過繞過傳統的字素到音素流水線,為語音合成提供了一種有前景的正規化。然而,在低資源語言中,其有效性受到轉錄語音稀缺性的根本限制。為應對這一挑戰,合成資料已成為擴充套件SLM的主要策略,當真實資料不足時提供可靠的音素監督。然而,研究人員發現,這種依賴引入了一個基本權衡,即“穩定性-表現力鴻溝”。合成資料在提升音素準確度的同時,逐步抑制了韻律的變異性,最終導致表現力崩潰,這一現象被稱為“合成侵蝕”。

為了彌合這一鴻溝,研究團隊提出了兩個自對齊框架。首先是解耦引導自對齊(DGSA),它透過將韻律和音色分離,為複雜語言恢復表現力。其次,對於真實參考極為有限的場景,溫度驅動自批判(TDSC)透過自動探索和過濾機制,穩定生成過程,確保在資料稀缺情況下的可靠性。

實驗結果表明,該方法在多項評估中超越了包括ElevenLabs和Gemini Pro在內的強大商業系統,並實現了寮國語的首次零樣本人聲克隆能力。這一突破性進展為低資源語言的語音合成技術開闢了新的可能性,有望推動更多語言在語音互動、教育、無障礙通訊等領域的應用。