2026-06-05 15:02 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Boson AI 发布新一代开源 TTS 模型 Higgs Audio v3

Boson AI 发布了 Higgs Audio v3 TTS 模型，这是一个具有 4B 参数、支持 100 多种语言、零样本语音克隆和情感控制的先进文本转语音模型。该模型专为语音聊天设计，能够生成富有表现力的对话式语音，并以研究和非商业用途许可发布。

来源Hacker News AI作者: silinmeng

Boson AI 近日发布了其最新的文本转语音模型 Higgs Audio v3，这是一款专为语音对话场景设计的先进模型。与传统的 TTS 模型不同，Higgs Audio v3 不仅能朗读文本，更能生成富有表现力的对话式语音，支持 100 多种语言，并具备零样本语音克隆功能。用户可以通过内联控制来调节情绪、风格、韵律、停顿和音效，从而实现高度定制化的语音输出。

在技术架构上，Higgs Audio v3 采用约 4B 参数的自回归解码器作为骨干网络，结合多码本融合嵌入和输出头。音频信号首先由 Higgs Tokenizer 编码为 8 个码本的离散令牌，帧率为 25 fps，并通过延迟模式交错排列。这些音频令牌与文本令牌共同输入解码器，经过骨干网络处理后，再由多码本融合头还原为音频波形。模型的工作采样率为 24 kHz，上下文长度达 8192 个令牌。

在性能方面，Boson AI 的测试显示，Higgs Audio v3 在 102 种语言上实现了个位数百分比的字错误率（WER）或字符错误率（CER），其中 85 种语言的 WER/CER 低于 5%，达到了生产级质量。支持的语言涵盖英语、中文、日语、韩语、阿拉伯语、印地语、德语、法语等全球主要语言，以及多种低资源语言。

模型以研究和非商业用途许可发布，禁止未经同意的语音克隆、冒充、欺诈、选举欺骗、生物识别监控等滥用行为。商业使用或托管 API 需要单独获取商业许可。这一发布为语音交互应用提供了强大的开源基础，有望推动语音助手、游戏角色配音、有声内容生成等领域的创新。