2026-06-05 06:38 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

マイクロソフト MAI-Voice-2

マイクロソフトが発表したMAI-Voice-2は、15言語での音声クローンと感情制御を可能にする表現力豊かなテキスト読み上げモデルで、Azure AI Foundryで100万文字あたり22ドルで提供され、VSCode、Dynamics 365 Contact Center、Teamsに統合されています。

ソースProduct Hunt AI著者: Habib Ferdous

マイクロソフトは、最新のテキスト読み上げ（TTS）モデル「MAI-Voice-2」を発表しました。このモデルは、短いサンプルからの音声クローン、細かい感情制御、15言語にわたる一貫した音声アイデンティティを実現します。現在、Azure AI Foundryで100万文字あたり22ドルで提供されており、VSCode、Dynamics 365 Contact Center、Teamsへの統合が順次進められています。

音声エージェントを構築する開発者にとって、MAI-Voice-2はOpenAI Realtime APIの価格帯に代わる、プロダクションレベルの韻律を提供します。コミュニティのユーザーからは、韻律の質の高さが評価され、A/Bテストではユーザーが機械と本物の声を区別できなかったとの報告があります。また、15言語で一貫した音声アイデンティティを維持できる点が、移民家族向けの音声コンパニオンアプリなどで特に有用だと指摘されています。10分間の会話を通じてクローンされたアイデンティティと感情制御がどの程度安定しているか、セッションが長くなるにつれて韻律がニュートラルにドリフトしないかなどの質問も寄せられています。

価格面では、$22/百万文字はElevenLabsより低く、GPT RealtimeのTTS層と同等です。OpenAI Realtimeに依存しているチームは、サイドバイサイドでテストする価値があります。MAI-Voice-2はMAIモデルファミリーの4番目のローンチであり、以前には推論、コード、画像、音声、文字起こしモデルがリリースされています。全体として、MAI-Voice-2は音声クローンと感情表現において印象的な能力を示し、多言語音声アプリケーションに新たな可能性を提供しています。