AI News HubLIVE
站内改写1 分鐘閱讀

微軟MAI-Voice-2

微軟最新推出的MAI-Voice-2是一款具有表現力的文本轉語音模型,支持15種語言的語音克隆和精細情感控制,在Azure AI Foundry中提供,定價為每百萬字符22美元,並已集成到VSCode、Dynamics 365 Contact Center和Teams中。

來源Product Hunt AI作者: Habib Ferdous

微軟最新推出的MAI-Voice-2是其迄今為止最富表現力的文本轉語音(TTS)模型。該模型支持從短樣本中進行語音克隆,提供精細的情感控制,並在15種語言中保持一致的語音身份。目前已在Azure AI Foundry上架,定價為每百萬字符22美元,同時正在向VSCode、Dynamics 365 Contact Center和Teams等產品中集成。

對於構建語音代理的開發者來説,MAI-Voice-2提供了生產級韻律,而無需承擔OpenAI Realtime API的高昂成本。社區用户反饋稱,該模型在韻律方面表現出色,甚至讓測試用户難以區分機器與真人的聲音。在A/B測試中,MAI-Voice-2的韻律質量讓用户無法察覺是機器發音。有用户指出,跨15種語言保持一致的語音身份是一個顯著優勢,特別適用於面向移民家庭的語音陪伴應用。用户還詢問了在10分鐘對話中克隆身份和情感控制的穩定性問題,擔心韻律是否會隨着會話時間延長而趨於中性。

從定價來看,$22/百萬字符低於ElevenLabs,並與GPT Realtime的TTS層價格相當。對於已經依賴OpenAI Realtime的團隊,值得進行並排測試。此外,MAI-Voice-2是MAI系列模型的第四次發佈,此前MAI已推出推理、代碼、圖像、語音和轉錄等模型,展示了微軟在AI領域的全面佈局。整體而言,MAI-Voice-2在語音克隆和情感表達方面展現了令人印象深刻的能力,為多語言語音應用提供了新的可能性。