AI News HubLIVE
站内改写1 分鐘閱讀

Boson AI 釋出新一代開源 TTS 模型 Higgs Audio v3

Boson AI 釋出了 Higgs Audio v3 TTS 模型,這是一個具有 4B 引數、支援 100 多種語言、零樣本語音克隆和情感控制的先進文本轉語音模型。該模型專為語音聊天設計,能夠生成富有表現力的對話式語音,並以研究和非商業用途許可釋出。

來源Hacker News AI作者: silinmeng

Boson AI 近日釋出了其最新的文本轉語音模型 Higgs Audio v3,這是一款專為語音對話場景設計的先進模型。與傳統的 TTS 模型不同,Higgs Audio v3 不僅能朗讀文本,更能生成富有表現力的對話式語音,支援 100 多種語言,並具備零樣本語音克隆功能。使用者可以透過內聯控制來調節情緒、風格、韻律、停頓和音效,從而實現高度定製化的語音輸出。

在技術架構上,Higgs Audio v3 採用約 4B 引數的自迴歸解碼器作為骨幹網路,結合多碼本融合嵌入和輸出頭。音訊訊號首先由 Higgs Tokenizer 編碼為 8 個碼本的離散令牌,幀率為 25 fps,並透過延遲模式交錯排列。這些音訊令牌與文本令牌共同輸入解碼器,經過骨幹網路處理後,再由多碼本融合頭還原為音訊波形。模型的工作取樣率為 24 kHz,上下文長度達 8192 個令牌。

在效能方面,Boson AI 的測試顯示,Higgs Audio v3 在 102 種語言上實現了個位數百分比的字錯誤率(WER)或字元錯誤率(CER),其中 85 種語言的 WER/CER 低於 5%,達到了生產級質量。支援的語言涵蓋英語、中文、日語、韓語、阿拉伯語、印地語、德語、法語等全球主要語言,以及多種低資源語言。

模型以研究和非商業用途許可釋出,禁止未經同意的語音克隆、冒充、欺詐、選舉欺騙、生物識別監控等濫用行為。商業使用或託管 API 需要單獨獲取商業許可。這一發布為語音互動應用提供了強大的開源基礎,有望推動語音助手、遊戲角色配音、有聲內容生成等領域的創新。