2026-05-15 11:43 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

低成本、高效能的TTS：Qwen3-TTS最佳化實踐

Baseten透過vLLM-Omni最佳化Qwen3-TTS，實現了每百萬字元僅需3-4美元的成本，比閉源替代方案低90%，同時保持高語音保真度。本文詳細介紹了多種最佳化技術，包括分離式聲學令牌生成與解碼、CUDA圖最佳化、說話人嵌入快取、動態幀累積以及單詞時間戳新增，並探討了微調定製語音的可能性。

來源Baseten Blog

語音正迅速成為與大型語言模型系統互動的主導介面。高效能且富有表現力的文本轉語音能力，可以解鎖語音代理、聽寫、內容生成等新產品體驗。為了以高效能和高成本效益服務客戶的生成式語音工作負載，Baseten團隊利用vLLM-Omni對Qwen3-TTS模型系列進行了單副本效能最佳化，實現了顯著的成本效率（每百萬字元約3-4美元），同時保持了高語音保真度。

Qwen3-TTS已部署於語音代理、語言學習和企業呼叫基礎設施等領域，在語音質量和速度方面獲得了廣泛好評。本文將詳細介紹在生產環境中實現低成本、高效能TTS的最佳化方法——成本比同類閉源模型低約90%。

文本轉語音API的經濟性 管理型TTS API通常按字元數收費。該費率包括服務成本（含GPU使用）和模型併發處理請求的能力。閉源提供商的定價公式不透明，而開源模型則直接按GPU使用付費。任何能在相同GPU上提高併發度的最佳化都會直接降低每千/百萬字元的價格。

實現每百萬字元低於5美元 為了計算開源TTS模型的每百萬令牌成本，團隊在混合長度提示（20-500字元）的語料庫上執行了基準測試。透過提高單個副本上的吞吐量，可將成本分攤到更多流上，從而降低每百萬字元的價格。在25個併發流時，系統達到最佳點：每百萬字元3.04美元，且p50和p90 RTF均低於即時閾值。

最佳化的Qwen3-TTS棧 要實現如此低的成本、延遲和吞吐量，關鍵最佳化包括：

分離式聲學令牌生成與解碼：Qwen3-TTS包含自迴歸Talker和神經音訊編解碼器解碼器兩階段。透過vLLM-Omni的分離式階段執行，每個階段作為獨立引擎執行，可實現請求間的流水線處理，同時各階段獨立批處理工作，是支援單副本併發請求的最重要架構槓桿。
AR階段CUDA圖與減少GPU到CPU同步：利用CUDA圖最佳化Transformer骨幹，在預熱時捕獲常見張量形狀，減少核心啟動序列。同時採用單程序執行器避免序列化開銷，已回饋給vLLM開源社群。
說話人嵌入快取：對於零樣本語音克隆，使用記憶體LRU快取常用說話人嵌入，減少首音訊時間並提高吞吐量。
動態幀累積：平衡延遲與吞吐量，初始幀數較低以減少首音訊時間，後續塊增加幀數以利用動態批處理。

為Qwen3-TTS新增單詞時間戳 針對語音代理的中斷處理需求，整合Qwen3強制對齊器作為後處理步驟，支援同步和非同步模式輸出單詞級時間戳。

進一步擴充套件：微調定製語音 透過監督微調，可使用約1小時的參考音訊定製新語音，獲得更高質量和語音相似度，同時避免說話人嵌入預填充。Baseten的訓練平臺可完成微調，所得檢查點可無縫接入vLLM-Omni服務棧。

最佳化的Qwen3-TTS模型現已透過模型庫提供自服務，支援流式和語音克隆場景。