AI News HubLIVE
站内改写1 分钟阅读

Boson AI 发布新一代开源 TTS 模型 Higgs Audio v3

Boson AI 发布了 Higgs Audio v3 TTS 模型,这是一个具有 4B 参数、支持 100 多种语言、零样本语音克隆和情感控制的先进文本转语音模型。该模型专为语音聊天设计,能够生成富有表现力的对话式语音,并以研究和非商业用途许可发布。

来源Hacker News AI作者: silinmeng

Boson AI 近日发布了其最新的文本转语音模型 Higgs Audio v3,这是一款专为语音对话场景设计的先进模型。与传统的 TTS 模型不同,Higgs Audio v3 不仅能朗读文本,更能生成富有表现力的对话式语音,支持 100 多种语言,并具备零样本语音克隆功能。用户可以通过内联控制来调节情绪、风格、韵律、停顿和音效,从而实现高度定制化的语音输出。

在技术架构上,Higgs Audio v3 采用约 4B 参数的自回归解码器作为骨干网络,结合多码本融合嵌入和输出头。音频信号首先由 Higgs Tokenizer 编码为 8 个码本的离散令牌,帧率为 25 fps,并通过延迟模式交错排列。这些音频令牌与文本令牌共同输入解码器,经过骨干网络处理后,再由多码本融合头还原为音频波形。模型的工作采样率为 24 kHz,上下文长度达 8192 个令牌。

在性能方面,Boson AI 的测试显示,Higgs Audio v3 在 102 种语言上实现了个位数百分比的字错误率(WER)或字符错误率(CER),其中 85 种语言的 WER/CER 低于 5%,达到了生产级质量。支持的语言涵盖英语、中文、日语、韩语、阿拉伯语、印地语、德语、法语等全球主要语言,以及多种低资源语言。

模型以研究和非商业用途许可发布,禁止未经同意的语音克隆、冒充、欺诈、选举欺骗、生物识别监控等滥用行为。商业使用或托管 API 需要单独获取商业许可。这一发布为语音交互应用提供了强大的开源基础,有望推动语音助手、游戏角色配音、有声内容生成等领域的创新。