AI News HubLIVE
站內改寫2 分鐘閱讀

低成本、高效能的TTS:Qwen3-TTS最佳化實踐

Baseten透過vLLM-Omni最佳化Qwen3-TTS,實現了每百萬字元僅需3-4美元的成本,比閉源替代方案低90%,同時保持高語音保真度。本文詳細介紹了多種最佳化技術,包括分離式聲學令牌生成與解碼、CUDA圖最佳化、說話人嵌入快取、動態幀累積以及單詞時間戳新增,並探討了微調定製語音的可能性。

語音正迅速成為與大型語言模型系統互動的主導介面。高效能且富有表現力的文本轉語音能力,可以解鎖語音代理、聽寫、內容生成等新產品體驗。為了以高效能和高成本效益服務客戶的生成式語音工作負載,Baseten團隊利用vLLM-Omni對Qwen3-TTS模型系列進行了單副本效能最佳化,實現了顯著的成本效率(每百萬字元約3-4美元),同時保持了高語音保真度。

Qwen3-TTS已部署於語音代理、語言學習和企業呼叫基礎設施等領域,在語音質量和速度方面獲得了廣泛好評。本文將詳細介紹在生產環境中實現低成本、高效能TTS的最佳化方法——成本比同類閉源模型低約90%。

文本轉語音API的經濟性 管理型TTS API通常按字元數收費。該費率包括服務成本(含GPU使用)和模型併發處理請求的能力。閉源提供商的定價公式不透明,而開源模型則直接按GPU使用付費。任何能在相同GPU上提高併發度的最佳化都會直接降低每千/百萬字元的價格。

實現每百萬字元低於5美元 為了計算開源TTS模型的每百萬令牌成本,團隊在混合長度提示(20-500字元)的語料庫上執行了基準測試。透過提高單個副本上的吞吐量,可將成本分攤到更多流上,從而降低每百萬字元的價格。在25個併發流時,系統達到最佳點:每百萬字元3.04美元,且p50和p90 RTF均低於即時閾值。

最佳化的Qwen3-TTS棧 要實現如此低的成本、延遲和吞吐量,關鍵最佳化包括:

  • 分離式聲學令牌生成與解碼:Qwen3-TTS包含自迴歸Talker和神經音訊編解碼器解碼器兩階段。透過vLLM-Omni的分離式階段執行,每個階段作為獨立引擎執行,可實現請求間的流水線處理,同時各階段獨立批處理工作,是支援單副本併發請求的最重要架構槓桿。
  • AR階段CUDA圖與減少GPU到CPU同步:利用CUDA圖最佳化Transformer骨幹,在預熱時捕獲常見張量形狀,減少核心啟動序列。同時採用單程序執行器避免序列化開銷,已回饋給vLLM開源社群。
  • 說話人嵌入快取:對於零樣本語音克隆,使用記憶體LRU快取常用說話人嵌入,減少首音訊時間並提高吞吐量。
  • 動態幀累積:平衡延遲與吞吐量,初始幀數較低以減少首音訊時間,後續塊增加幀數以利用動態批處理。

為Qwen3-TTS新增單詞時間戳 針對語音代理的中斷處理需求,整合Qwen3強制對齊器作為後處理步驟,支援同步和非同步模式輸出單詞級時間戳。

進一步擴充套件:微調定製語音 透過監督微調,可使用約1小時的參考音訊定製新語音,獲得更高質量和語音相似度,同時避免說話人嵌入預填充。Baseten的訓練平臺可完成微調,所得檢查點可無縫接入vLLM-Omni服務棧。

最佳化的Qwen3-TTS模型現已透過模型庫提供自服務,支援流式和語音克隆場景。