低成本、高性能的TTS:Qwen3-TTS優化實踐
Baseten通過vLLM-Omni優化Qwen3-TTS,實現了每百萬字符僅需3-4美元的成本,比閉源替代方案低90%,同時保持高語音保真度。本文詳細介紹了多種優化技術,包括分離式聲學令牌生成與解碼、CUDA圖優化、説話人嵌入緩存、動態幀累積以及單詞時間戳添加,並探討了微調定製語音的可能性。
語音正迅速成為與大型語言模型系統交互的主導界面。高性能且富有表現力的文本轉語音能力,可以解鎖語音代理、聽寫、內容生成等新產品體驗。為了以高性能和高成本效益服務客户的生成式語音工作負載,Baseten團隊利用vLLM-Omni對Qwen3-TTS模型系列進行了單副本性能優化,實現了顯著的成本效率(每百萬字符約3-4美元),同時保持了高語音保真度。
Qwen3-TTS已部署於語音代理、語言學習和企業呼叫基礎設施等領域,在語音質量和速度方面獲得了廣泛好評。本文將詳細介紹在生產環境中實現低成本、高性能TTS的優化方法——成本比同類閉源模型低約90%。
文本轉語音API的經濟性 管理型TTS API通常按字符數收費。該費率包括服務成本(含GPU使用)和模型併發處理請求的能力。閉源提供商的定價公式不透明,而開源模型則直接按GPU使用付費。任何能在相同GPU上提高併發度的優化都會直接降低每千/百萬字符的價格。
實現每百萬字符低於5美元 為了計算開源TTS模型的每百萬令牌成本,團隊在混合長度提示(20-500字符)的語料庫上運行了基準測試。通過提高單個副本上的吞吐量,可將成本分攤到更多流上,從而降低每百萬字符的價格。在25個併發流時,系統達到最佳點:每百萬字符3.04美元,且p50和p90 RTF均低於實時閾值。
優化的Qwen3-TTS棧 要實現如此低的成本、延遲和吞吐量,關鍵優化包括:
- 分離式聲學令牌生成與解碼:Qwen3-TTS包含自迴歸Talker和神經音頻編解碼器解碼器兩階段。通過vLLM-Omni的分離式階段執行,每個階段作為獨立引擎運行,可實現請求間的流水線處理,同時各階段獨立批處理工作,是支持單副本併發請求的最重要架構槓桿。
- AR階段CUDA圖與減少GPU到CPU同步:利用CUDA圖優化Transformer骨幹,在預熱時捕獲常見張量形狀,減少內核啓動序列。同時採用單進程執行器避免序列化開銷,已回饋給vLLM開源社區。
- 説話人嵌入緩存:對於零樣本語音克隆,使用內存LRU緩存常用説話人嵌入,減少首音頻時間並提高吞吐量。
- 動態幀累積:平衡延遲與吞吐量,初始幀數較低以減少首音頻時間,後續塊增加幀數以利用動態批處理。
為Qwen3-TTS添加單詞時間戳 針對語音代理的中斷處理需求,集成Qwen3強制對齊器作為後處理步驟,支持同步和異步模式輸出單詞級時間戳。
進一步擴展:微調定製語音 通過監督微調,可使用約1小時的參考音頻定製新語音,獲得更高質量和語音相似度,同時避免説話人嵌入預填充。Baseten的訓練平台可完成微調,所得檢查點可無縫接入vLLM-Omni服務棧。
優化的Qwen3-TTS模型現已通過模型庫提供自服務,支持流式和語音克隆場景。