2026-05-28 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

彌合穩定性與表現力之間的鴻溝：面向低資源口語模型的合成資料擴充套件與偏好對齊

研究人員發現，在低資源語言的口語模型中使用合成資料會導致“穩定性-表現力鴻溝”，並提出兩種自對齊框架（DGSA和TDSC），能夠恢復韻律變異性，超越ElevenLabs和Gemini Pro等商業系統，實現寮國語的首次零樣本人聲克隆。

來源arXiv Computational Linguistics作者: Yizhong Geng, Yanliang Li, Jinghan Yang, Tianhan Jiang, Boxun An, Ya Li, Xiaoyu Shen

口語模型（SLM）透過繞過傳統的字素到音素流水線，為語音合成提供了一種有前景的正規化。然而，在低資源語言中，其有效性受到轉錄語音稀缺性的根本限制。為應對這一挑戰，合成資料已成為擴充套件SLM的主要策略，當真實資料不足時提供可靠的音素監督。然而，研究人員發現，這種依賴引入了一個基本權衡，即“穩定性-表現力鴻溝”。合成資料在提升音素準確度的同時，逐步抑制了韻律的變異性，最終導致表現力崩潰，這一現象被稱為“合成侵蝕”。

為了彌合這一鴻溝，研究團隊提出了兩個自對齊框架。首先是解耦引導自對齊（DGSA），它透過將韻律和音色分離，為複雜語言恢復表現力。其次，對於真實參考極為有限的場景，溫度驅動自批判（TDSC）透過自動探索和過濾機制，穩定生成過程，確保在資料稀缺情況下的可靠性。

實驗結果表明，該方法在多項評估中超越了包括ElevenLabs和Gemini Pro在內的強大商業系統，並實現了寮國語的首次零樣本人聲克隆能力。這一突破性進展為低資源語言的語音合成技術開闢了新的可能性，有望推動更多語言在語音互動、教育、無障礙通訊等領域的應用。