弥合稳定性与表现力之间的鸿沟:面向低资源口语模型的合成数据扩展与偏好对齐
研究人员发现,在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”,并提出两种自对齐框架(DGSA和TDSC),能够恢复韵律变异性,超越ElevenLabs和Gemini Pro等商业系统,实现老挝语的首次零样本人声克隆。
文章情报
工程师进阶
要点
- 低资源语言的口语模型在合成数据训练时面临音素准确度与韵律表现力之间的权衡。
- 提出的解耦引导自对齐(DGSA)通过分离韵律和音色来恢复表现力。
- 对于数据极度匮乏的情况,温度驱动自批判(TDSC)通过自动探索和过滤稳定生成过程。
- 该方法优于ElevenLabs和Gemini Pro,并实现了老挝语的首次零样本人声克隆。
为什么重要
这条新闻值得关注,因为低资源语言的口语模型在合成数据训练时面临音素准确度与韵律表现力之间的权衡。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
口语模型(SLM)通过绕过传统的字素到音素流水线,为语音合成提供了一种有前景的范式。然而,在低资源语言中,其有效性受到转录语音稀缺性的根本限制。为应对这一挑战,合成数据已成为扩展SLM的主要策略,当真实数据不足时提供可靠的音素监督。然而,研究人员发现,这种依赖引入了一个基本权衡,即“稳定性-表现力鸿沟”。合成数据在提升音素准确度的同时,逐步抑制了韵律的变异性,最终导致表现力崩溃,这一现象被称为“合成侵蚀”。
为了弥合这一鸿沟,研究团队提出了两个自对齐框架。首先是解耦引导自对齐(DGSA),它通过将韵律和音色分离,为复杂语言恢复表现力。其次,对于真实参考极为有限的场景,温度驱动自批判(TDSC)通过自动探索和过滤机制,稳定生成过程,确保在数据稀缺情况下的可靠性。
实验结果表明,该方法在多项评估中超越了包括ElevenLabs和Gemini Pro在内的强大商业系统,并实现了老挝语的首次零样本人声克隆能力。这一突破性进展为低资源语言的语音合成技术开辟了新的可能性,有望推动更多语言在语音交互、教育、无障碍通信等领域的应用。