低成本、高性能的TTS:Qwen3-TTS优化实践
Baseten通过vLLM-Omni优化Qwen3-TTS,实现了每百万字符仅需3-4美元的成本,比闭源替代方案低90%,同时保持高语音保真度。本文详细介绍了多种优化技术,包括分离式声学令牌生成与解码、CUDA图优化、说话人嵌入缓存、动态帧累积以及单词时间戳添加,并探讨了微调定制语音的可能性。
语音正迅速成为与大型语言模型系统交互的主导界面。高性能且富有表现力的文本转语音能力,可以解锁语音代理、听写、内容生成等新产品体验。为了以高性能和高成本效益服务客户的生成式语音工作负载,Baseten团队利用vLLM-Omni对Qwen3-TTS模型系列进行了单副本性能优化,实现了显著的成本效率(每百万字符约3-4美元),同时保持了高语音保真度。
Qwen3-TTS已部署于语音代理、语言学习和企业呼叫基础设施等领域,在语音质量和速度方面获得了广泛好评。本文将详细介绍在生产环境中实现低成本、高性能TTS的优化方法——成本比同类闭源模型低约90%。
文本转语音API的经济性 管理型TTS API通常按字符数收费。该费率包括服务成本(含GPU使用)和模型并发处理请求的能力。闭源提供商的定价公式不透明,而开源模型则直接按GPU使用付费。任何能在相同GPU上提高并发度的优化都会直接降低每千/百万字符的价格。
实现每百万字符低于5美元 为了计算开源TTS模型的每百万令牌成本,团队在混合长度提示(20-500字符)的语料库上运行了基准测试。通过提高单个副本上的吞吐量,可将成本分摊到更多流上,从而降低每百万字符的价格。在25个并发流时,系统达到最佳点:每百万字符3.04美元,且p50和p90 RTF均低于实时阈值。
优化的Qwen3-TTS栈 要实现如此低的成本、延迟和吞吐量,关键优化包括:
- 分离式声学令牌生成与解码:Qwen3-TTS包含自回归Talker和神经音频编解码器解码器两阶段。通过vLLM-Omni的分离式阶段执行,每个阶段作为独立引擎运行,可实现请求间的流水线处理,同时各阶段独立批处理工作,是支持单副本并发请求的最重要架构杠杆。
- AR阶段CUDA图与减少GPU到CPU同步:利用CUDA图优化Transformer骨干,在预热时捕获常见张量形状,减少内核启动序列。同时采用单进程执行器避免序列化开销,已回馈给vLLM开源社区。
- 说话人嵌入缓存:对于零样本语音克隆,使用内存LRU缓存常用说话人嵌入,减少首音频时间并提高吞吐量。
- 动态帧累积:平衡延迟与吞吐量,初始帧数较低以减少首音频时间,后续块增加帧数以利用动态批处理。
为Qwen3-TTS添加单词时间戳 针对语音代理的中断处理需求,集成Qwen3强制对齐器作为后处理步骤,支持同步和异步模式输出单词级时间戳。
进一步扩展:微调定制语音 通过监督微调,可使用约1小时的参考音频定制新语音,获得更高质量和语音相似度,同时避免说话人嵌入预填充。Baseten的训练平台可完成微调,所得检查点可无缝接入vLLM-Omni服务栈。
优化的Qwen3-TTS模型现已通过模型库提供自服务,支持流式和语音克隆场景。