AI News HubLIVE
站内改写1 分钟阅读

微软MAI-Voice-2

微软最新推出的MAI-Voice-2是一款具有表现力的文本转语音模型,支持15种语言的语音克隆和精细情感控制,在Azure AI Foundry中提供,定价为每百万字符22美元,并已集成到VSCode、Dynamics 365 Contact Center和Teams中。

来源Product Hunt AI作者: Habib Ferdous

微软最新推出的MAI-Voice-2是其迄今为止最富表现力的文本转语音(TTS)模型。该模型支持从短样本中进行语音克隆,提供精细的情感控制,并在15种语言中保持一致的语音身份。目前已在Azure AI Foundry上架,定价为每百万字符22美元,同时正在向VSCode、Dynamics 365 Contact Center和Teams等产品中集成。

对于构建语音代理的开发者来说,MAI-Voice-2提供了生产级韵律,而无需承担OpenAI Realtime API的高昂成本。社区用户反馈称,该模型在韵律方面表现出色,甚至让测试用户难以区分机器与真人的声音。在A/B测试中,MAI-Voice-2的韵律质量让用户无法察觉是机器发音。有用户指出,跨15种语言保持一致的语音身份是一个显著优势,特别适用于面向移民家庭的语音陪伴应用。用户还询问了在10分钟对话中克隆身份和情感控制的稳定性问题,担心韵律是否会随着会话时间延长而趋于中性。

从定价来看,$22/百万字符低于ElevenLabs,并与GPT Realtime的TTS层价格相当。对于已经依赖OpenAI Realtime的团队,值得进行并排测试。此外,MAI-Voice-2是MAI系列模型的第四次发布,此前MAI已推出推理、代码、图像、语音和转录等模型,展示了微软在AI领域的全面布局。整体而言,MAI-Voice-2在语音克隆和情感表达方面展现了令人印象深刻的能力,为多语言语音应用提供了新的可能性。