2026-05-15 11:43 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

低成本、高性能的TTS：Qwen3-TTS優化實踐

Baseten通過vLLM-Omni優化Qwen3-TTS，實現了每百萬字符僅需3-4美元的成本，比閉源替代方案低90%，同時保持高語音保真度。本文詳細介紹了多種優化技術，包括分離式聲學令牌生成與解碼、CUDA圖優化、説話人嵌入緩存、動態幀累積以及單詞時間戳添加，並探討了微調定製語音的可能性。

來源Baseten Blog

語音正迅速成為與大型語言模型系統交互的主導界面。高性能且富有表現力的文本轉語音能力，可以解鎖語音代理、聽寫、內容生成等新產品體驗。為了以高性能和高成本效益服務客户的生成式語音工作負載，Baseten團隊利用vLLM-Omni對Qwen3-TTS模型系列進行了單副本性能優化，實現了顯著的成本效率（每百萬字符約3-4美元），同時保持了高語音保真度。

Qwen3-TTS已部署於語音代理、語言學習和企業呼叫基礎設施等領域，在語音質量和速度方面獲得了廣泛好評。本文將詳細介紹在生產環境中實現低成本、高性能TTS的優化方法——成本比同類閉源模型低約90%。

文本轉語音API的經濟性 管理型TTS API通常按字符數收費。該費率包括服務成本（含GPU使用）和模型併發處理請求的能力。閉源提供商的定價公式不透明，而開源模型則直接按GPU使用付費。任何能在相同GPU上提高併發度的優化都會直接降低每千/百萬字符的價格。

實現每百萬字符低於5美元 為了計算開源TTS模型的每百萬令牌成本，團隊在混合長度提示（20-500字符）的語料庫上運行了基準測試。通過提高單個副本上的吞吐量，可將成本分攤到更多流上，從而降低每百萬字符的價格。在25個併發流時，系統達到最佳點：每百萬字符3.04美元，且p50和p90 RTF均低於實時閾值。

優化的Qwen3-TTS棧 要實現如此低的成本、延遲和吞吐量，關鍵優化包括：

分離式聲學令牌生成與解碼：Qwen3-TTS包含自迴歸Talker和神經音頻編解碼器解碼器兩階段。通過vLLM-Omni的分離式階段執行，每個階段作為獨立引擎運行，可實現請求間的流水線處理，同時各階段獨立批處理工作，是支持單副本併發請求的最重要架構槓桿。
AR階段CUDA圖與減少GPU到CPU同步：利用CUDA圖優化Transformer骨幹，在預熱時捕獲常見張量形狀，減少內核啓動序列。同時採用單進程執行器避免序列化開銷，已回饋給vLLM開源社區。
説話人嵌入緩存：對於零樣本語音克隆，使用內存LRU緩存常用説話人嵌入，減少首音頻時間並提高吞吐量。
動態幀累積：平衡延遲與吞吐量，初始幀數較低以減少首音頻時間，後續塊增加幀數以利用動態批處理。

為Qwen3-TTS添加單詞時間戳 針對語音代理的中斷處理需求，集成Qwen3強制對齊器作為後處理步驟，支持同步和異步模式輸出單詞級時間戳。

進一步擴展：微調定製語音 通過監督微調，可使用約1小時的參考音頻定製新語音，獲得更高質量和語音相似度，同時避免説話人嵌入預填充。Baseten的訓練平台可完成微調，所得檢查點可無縫接入vLLM-Omni服務棧。

優化的Qwen3-TTS模型現已通過模型庫提供自服務，支持流式和語音克隆場景。