AI News HubLIVE
站内改写1 分鐘閱讀

微軟MAI-Voice-2

微軟最新推出的MAI-Voice-2是一款具有表現力的文本轉語音模型,支援15種語言的語音克隆和精細情感控制,在Azure AI Foundry中提供,定價為每百萬字元22美元,並已整合到VSCode、Dynamics 365 Contact Center和Teams中。

來源Product Hunt AI作者: Habib Ferdous

微軟最新推出的MAI-Voice-2是其迄今為止最富表現力的文本轉語音(TTS)模型。該模型支援從短樣本中進行語音克隆,提供精細的情感控制,並在15種語言中保持一致的語音身份。目前已在Azure AI Foundry上架,定價為每百萬字元22美元,同時正在向VSCode、Dynamics 365 Contact Center和Teams等產品中整合。

對於構建語音代理的開發者來說,MAI-Voice-2提供了生產級韻律,而無需承擔OpenAI Realtime API的高昂成本。社群使用者反饋稱,該模型在韻律方面表現出色,甚至讓測試使用者難以區分機器與真人的聲音。在A/B測試中,MAI-Voice-2的韻律質量讓使用者無法察覺是機器發音。有使用者指出,跨15種語言保持一致的語音身份是一個顯著優勢,特別適用於面向移民家庭的語音陪伴應用。使用者還詢問了在10分鐘對話中克隆身份和情感控制的穩定性問題,擔心韻律是否會隨著會話時間延長而趨於中性。

從定價來看,$22/百萬字元低於ElevenLabs,並與GPT Realtime的TTS層價格相當。對於已經依賴OpenAI Realtime的團隊,值得進行並排測試。此外,MAI-Voice-2是MAI系列模型的第四次釋出,此前MAI已推出推理、程式碼、影像、語音和轉錄等模型,展示了微軟在AI領域的全面佈局。整體而言,MAI-Voice-2在語音克隆和情感表達方面展現了令人印象深刻的能力,為多語言語音應用提供了新的可能性。