2026-05-28站内改写

フロンティアAI LLM、アシスタント、エージェント、サービス | Mistral AI

Mistral AI は、4Bパラメータの軽量な初のテキスト読み上げモデル Voxtral TTS をリリースしました。9言語に対応し、低レイテンシで感情表現豊かな音声を生成できます。人間による評価で最先端の自然さを達成し、わずか3秒の参照音声で新しい声に適応可能です。APIおよびオープンウェイトで提供されています。

記事インテリジェンス

エンジニア上級

要点

Voxtral TTS は Mistral AI 初のテキスト読み上げモデルで、4Bパラメータの軽量設計。
9言語に対応し、リアルで感情表現豊かな音声と方言のバリエーションをサポート。
人間評価において ElevenLabs Flash v2.5 を上回る自然さを達成し、ElevenLabs v3 と同等の品質。
3秒の参照音声でゼロショット声音適応が可能で、言語間の声音転送も実現。

重要な理由

このニュースが重要なのは、Voxtral TTS は Mistral AI 初のテキスト読み上げモデルで、4Bパラメータの軽量設計ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Mistral AI は本日、初のテキスト読み上げ（TTS）モデル「Voxtral TTS」を発表しました。このモデルはわずか4Bパラメータの軽量設計でありながら、多言語音声生成において最先端のパフォーマンスを発揮します。音声エージェントやアシスタント向けに設計され、自然で信頼性が高く、コスト効率に優れた運用を実現します。

Voxtral TTS の主な強みは、9つの主要言語でリアルで感情表現豊かな音声を生成できる点です。モデルはテキストの文脈を正確に解釈し、中立的、喜び、皮肉などの感情を適切に表現します。声音適応機能は従来の読み上げを超え、話者の自然な間合い、リズム、イントネーション、感情の機微を捉えます。これにより、企業は自社の音声AIスタックを完全に制御・カスタマイズできます。

性能面では、Mistral AI は人間による評価を実施し、Voxtral TTS が ElevenLabs Flash v2.5 よりも優れた自然さを達成し、初回音声出力までの時間（TTFA）は同等であることを確認しました。また、ElevenLabs v3 と品質で同等のパフォーマンスを示し、感情制御をサポートしてより人間らしいインタラクションを実現します。ゼロショットカスタム音声設定では、Voxtral TTS は v2.5 Flash に対して品質面で明確な差をつけています。

Voxtral TTS は Ministral 3B をベースにしたトランスフォーマー型自己回帰フローマッチングモデルです。3.4Bパラメータのトランスフォーマーデコーダー、390Mのフローマッチング音響トランスフォーマー、300Mのニューラルオーディオコーデックで構成されます。モデル遅延は70ミリ秒（10秒の音声サンプルと500文字の入力で）で、リアルタイムファクター（RTF）は約9.7倍です。ネイティブで最大2分の音声を生成し、APIはスマートインターリーブにより任意の長さの生成を処理します。

対応言語は英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語です。わずか3秒の参照音声でカスタム声音に適応でき、アクセントや抑揚、さらには言い淀みなどのニュアンスも保持します。さらに、明示的なトレーニングなしでゼロショットの言語間声音適応を実現しています。例えば、フランス語の音声プロンプトと英語のテキストから自然なフランス語アクセントの英語音声を生成できます。

Voxtral TTS は API を通じて提供され、価格は1,000文字あたり0.016ドルです。Mistral Studio のプレイグラウンドで直接体験できるほか、Le Chat でも利用可能です。また、Hugging Face で CC BY NC 4.0 ライセンスのもと、複数の参照声音を含むモデルウェイトがオープンソースとして公開されています。このモデルは Voxtral Transcribe と組み合わせて完全な音声-to-音声パイプラインを構築できるほか、既存の音声認識・LLMスタックに統合することも可能です。Mistral AI は今後のウェビナーで詳細を説明し、関連人材を募集中です。