2026-06-05 05:38 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

微軟MAI-Voice-2

微軟最新推出的MAI-Voice-2是一款具有表現力的文本轉語音模型，支援15種語言的語音克隆和精細情感控制，在Azure AI Foundry中提供，定價為每百萬字元22美元，並已整合到VSCode、Dynamics 365 Contact Center和Teams中。

來源Product Hunt AI作者: Habib Ferdous

微軟最新推出的MAI-Voice-2是其迄今為止最富表現力的文本轉語音（TTS）模型。該模型支援從短樣本中進行語音克隆，提供精細的情感控制，並在15種語言中保持一致的語音身份。目前已在Azure AI Foundry上架，定價為每百萬字元22美元，同時正在向VSCode、Dynamics 365 Contact Center和Teams等產品中整合。

對於構建語音代理的開發者來說，MAI-Voice-2提供了生產級韻律，而無需承擔OpenAI Realtime API的高昂成本。社群使用者反饋稱，該模型在韻律方面表現出色，甚至讓測試使用者難以區分機器與真人的聲音。在A/B測試中，MAI-Voice-2的韻律質量讓使用者無法察覺是機器發音。有使用者指出，跨15種語言保持一致的語音身份是一個顯著優勢，特別適用於面向移民家庭的語音陪伴應用。使用者還詢問了在10分鐘對話中克隆身份和情感控制的穩定性問題，擔心韻律是否會隨著會話時間延長而趨於中性。

從定價來看，$22/百萬字元低於ElevenLabs，並與GPT Realtime的TTS層價格相當。對於已經依賴OpenAI Realtime的團隊，值得進行並排測試。此外，MAI-Voice-2是MAI系列模型的第四次釋出，此前MAI已推出推理、程式碼、影像、語音和轉錄等模型，展示了微軟在AI領域的全面佈局。整體而言，MAI-Voice-2在語音克隆和情感表達方面展現了令人印象深刻的能力，為多語言語音應用提供了新的可能性。