2026-06-05 15:02 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Boson AI 釋出新一代開源 TTS 模型 Higgs Audio v3

Boson AI 釋出了 Higgs Audio v3 TTS 模型，這是一個具有 4B 引數、支援 100 多種語言、零樣本語音克隆和情感控制的先進文本轉語音模型。該模型專為語音聊天設計，能夠生成富有表現力的對話式語音，並以研究和非商業用途許可釋出。

來源Hacker News AI作者: silinmeng

Boson AI 近日釋出了其最新的文本轉語音模型 Higgs Audio v3，這是一款專為語音對話場景設計的先進模型。與傳統的 TTS 模型不同，Higgs Audio v3 不僅能朗讀文本，更能生成富有表現力的對話式語音，支援 100 多種語言，並具備零樣本語音克隆功能。使用者可以透過內聯控制來調節情緒、風格、韻律、停頓和音效，從而實現高度定製化的語音輸出。

在技術架構上，Higgs Audio v3 採用約 4B 引數的自迴歸解碼器作為骨幹網路，結合多碼本融合嵌入和輸出頭。音訊訊號首先由 Higgs Tokenizer 編碼為 8 個碼本的離散令牌，幀率為 25 fps，並透過延遲模式交錯排列。這些音訊令牌與文本令牌共同輸入解碼器，經過骨幹網路處理後，再由多碼本融合頭還原為音訊波形。模型的工作取樣率為 24 kHz，上下文長度達 8192 個令牌。

在效能方面，Boson AI 的測試顯示，Higgs Audio v3 在 102 種語言上實現了個位數百分比的字錯誤率（WER）或字元錯誤率（CER），其中 85 種語言的 WER/CER 低於 5%，達到了生產級質量。支援的語言涵蓋英語、中文、日語、韓語、阿拉伯語、印地語、德語、法語等全球主要語言，以及多種低資源語言。

模型以研究和非商業用途許可釋出，禁止未經同意的語音克隆、冒充、欺詐、選舉欺騙、生物識別監控等濫用行為。商業使用或託管 API 需要單獨獲取商業許可。這一發布為語音互動應用提供了強大的開源基礎，有望推動語音助手、遊戲角色配音、有聲內容生成等領域的創新。