2026-05-15 11:43 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

低成本、高性能的TTS：Qwen3-TTS优化实践

Baseten通过vLLM-Omni优化Qwen3-TTS，实现了每百万字符仅需3-4美元的成本，比闭源替代方案低90%，同时保持高语音保真度。本文详细介绍了多种优化技术，包括分离式声学令牌生成与解码、CUDA图优化、说话人嵌入缓存、动态帧累积以及单词时间戳添加，并探讨了微调定制语音的可能性。

来源Baseten Blog

语音正迅速成为与大型语言模型系统交互的主导界面。高性能且富有表现力的文本转语音能力，可以解锁语音代理、听写、内容生成等新产品体验。为了以高性能和高成本效益服务客户的生成式语音工作负载，Baseten团队利用vLLM-Omni对Qwen3-TTS模型系列进行了单副本性能优化，实现了显著的成本效率（每百万字符约3-4美元），同时保持了高语音保真度。

Qwen3-TTS已部署于语音代理、语言学习和企业呼叫基础设施等领域，在语音质量和速度方面获得了广泛好评。本文将详细介绍在生产环境中实现低成本、高性能TTS的优化方法——成本比同类闭源模型低约90%。

文本转语音API的经济性 管理型TTS API通常按字符数收费。该费率包括服务成本（含GPU使用）和模型并发处理请求的能力。闭源提供商的定价公式不透明，而开源模型则直接按GPU使用付费。任何能在相同GPU上提高并发度的优化都会直接降低每千/百万字符的价格。

实现每百万字符低于5美元 为了计算开源TTS模型的每百万令牌成本，团队在混合长度提示（20-500字符）的语料库上运行了基准测试。通过提高单个副本上的吞吐量，可将成本分摊到更多流上，从而降低每百万字符的价格。在25个并发流时，系统达到最佳点：每百万字符3.04美元，且p50和p90 RTF均低于实时阈值。

优化的Qwen3-TTS栈 要实现如此低的成本、延迟和吞吐量，关键优化包括：

分离式声学令牌生成与解码：Qwen3-TTS包含自回归Talker和神经音频编解码器解码器两阶段。通过vLLM-Omni的分离式阶段执行，每个阶段作为独立引擎运行，可实现请求间的流水线处理，同时各阶段独立批处理工作，是支持单副本并发请求的最重要架构杠杆。
AR阶段CUDA图与减少GPU到CPU同步：利用CUDA图优化Transformer骨干，在预热时捕获常见张量形状，减少内核启动序列。同时采用单进程执行器避免序列化开销，已回馈给vLLM开源社区。
说话人嵌入缓存：对于零样本语音克隆，使用内存LRU缓存常用说话人嵌入，减少首音频时间并提高吞吐量。
动态帧累积：平衡延迟与吞吐量，初始帧数较低以减少首音频时间，后续块增加帧数以利用动态批处理。

为Qwen3-TTS添加单词时间戳 针对语音代理的中断处理需求，集成Qwen3强制对齐器作为后处理步骤，支持同步和异步模式输出单词级时间戳。

进一步扩展：微调定制语音 通过监督微调，可使用约1小时的参考音频定制新语音，获得更高质量和语音相似度，同时避免说话人嵌入预填充。Baseten的训练平台可完成微调，所得检查点可无缝接入vLLM-Omni服务栈。

优化的Qwen3-TTS模型现已通过模型库提供自服务，支持流式和语音克隆场景。