2026-05-28 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

弥合稳定性与表现力之间的鸿沟：面向低资源口语模型的合成数据扩展与偏好对齐

研究人员发现，在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”，并提出两种自对齐框架（DGSA和TDSC），能够恢复韵律变异性，超越ElevenLabs和Gemini Pro等商业系统，实现老挝语的首次零样本人声克隆。

来源arXiv Computational Linguistics作者: Yizhong Geng, Yanliang Li, Jinghan Yang, Tianhan Jiang, Boxun An, Ya Li, Xiaoyu Shen

口语模型（SLM）通过绕过传统的字素到音素流水线，为语音合成提供了一种有前景的范式。然而，在低资源语言中，其有效性受到转录语音稀缺性的根本限制。为应对这一挑战，合成数据已成为扩展SLM的主要策略，当真实数据不足时提供可靠的音素监督。然而，研究人员发现，这种依赖引入了一个基本权衡，即“稳定性-表现力鸿沟”。合成数据在提升音素准确度的同时，逐步抑制了韵律的变异性，最终导致表现力崩溃，这一现象被称为“合成侵蚀”。

为了弥合这一鸿沟，研究团队提出了两个自对齐框架。首先是解耦引导自对齐（DGSA），它通过将韵律和音色分离，为复杂语言恢复表现力。其次，对于真实参考极为有限的场景，温度驱动自批判（TDSC）通过自动探索和过滤机制，稳定生成过程，确保在数据稀缺情况下的可靠性。

实验结果表明，该方法在多项评估中超越了包括ElevenLabs和Gemini Pro在内的强大商业系统，并实现了老挝语的首次零样本人声克隆能力。这一突破性进展为低资源语言的语音合成技术开辟了新的可能性，有望推动更多语言在语音交互、教育、无障碍通信等领域的应用。