2026-06-05 05:38 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

微软MAI-Voice-2

微软最新推出的MAI-Voice-2是一款具有表现力的文本转语音模型，支持15种语言的语音克隆和精细情感控制，在Azure AI Foundry中提供，定价为每百万字符22美元，并已集成到VSCode、Dynamics 365 Contact Center和Teams中。

来源Product Hunt AI作者: Habib Ferdous

微软最新推出的MAI-Voice-2是其迄今为止最富表现力的文本转语音（TTS）模型。该模型支持从短样本中进行语音克隆，提供精细的情感控制，并在15种语言中保持一致的语音身份。目前已在Azure AI Foundry上架，定价为每百万字符22美元，同时正在向VSCode、Dynamics 365 Contact Center和Teams等产品中集成。

对于构建语音代理的开发者来说，MAI-Voice-2提供了生产级韵律，而无需承担OpenAI Realtime API的高昂成本。社区用户反馈称，该模型在韵律方面表现出色，甚至让测试用户难以区分机器与真人的声音。在A/B测试中，MAI-Voice-2的韵律质量让用户无法察觉是机器发音。有用户指出，跨15种语言保持一致的语音身份是一个显著优势，特别适用于面向移民家庭的语音陪伴应用。用户还询问了在10分钟对话中克隆身份和情感控制的稳定性问题，担心韵律是否会随着会话时间延长而趋于中性。

从定价来看，$22/百万字符低于ElevenLabs，并与GPT Realtime的TTS层价格相当。对于已经依赖OpenAI Realtime的团队，值得进行并排测试。此外，MAI-Voice-2是MAI系列模型的第四次发布，此前MAI已推出推理、代码、图像、语音和转录等模型，展示了微软在AI领域的全面布局。整体而言，MAI-Voice-2在语音克隆和情感表达方面展现了令人印象深刻的能力，为多语言语音应用提供了新的可能性。