2026-05-28站内改写

前沿AI大语言模型、助手、智能体与服务 | Mistral AI

Mistral AI 发布了其首个文本转语音模型 Voxtral TTS，该模型参数量仅为 4B，支持 9 种语言，具有低延迟、高自然度的语音生成能力，并能够快速适配新声音。模型在自然度和情感表达方面优于竞品，已通过 API 和开源权重发布。

文章情报

工程师进阶

要点

Voxtral TTS 是 Mistral AI 的首款文本转语音模型，参数量 4B，轻量高效。
支持英语、法语、德语等 9 种语言，具备情感表达和方言适应能力。
在人类评估中自然度优于 ElevenLabs Flash v2.5，质量与 ElevenLabs v3 持平。
可通过 3 秒参考音频实现零样本声音适配，并支持跨语言声音迁移。

为什么重要

这条新闻值得关注，因为Voxtral TTS 是 Mistral AI 的首款文本转语音模型，参数量 4B，轻量高效。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Mistral AI 今日宣布推出 Voxtral TTS，这是其首款文本转语音模型，以 4B 的轻量参数实现了多语言语音生成领域的最新性能。该模型专为语音助手和智能体场景设计，在保持自然度、可靠性和成本效益的同时，实现了极低延迟。

Voxtral TTS 的核心优势在于其能够生成逼真且富有情感表达的语音，覆盖 9 种主流语言并支持多种方言。模型通过对文本上下文的精准理解，能够准确传达中性、愉悦、讽刺等不同情绪。其声音适配能力超越了传统的朗读式语音合成，能够捕捉说话者的个性特征，包括自然停顿、节奏、语调以及情感灵活性。这为企业构建自有语音 AI 栈提供了完整的控制和定制能力。

在性能方面，Mistral AI 进行了人类评估，将 Voxtral TTS 与 ElevenLabs 的最新模型进行对比。结果显示，Voxtral TTS 在自然度上超越了 ElevenLabs Flash v2.5，同时保持了相似的首音频延迟（TTFA），并且在质量上与 ElevenLabs v3 持平，成功支持情感导向以增强交互的真实感。在零样本自定义声音场景中，Voxtral TTS 进一步拉大了与 v2.5 Flash 的质量差距，凸显了其即时定制任意声音的能力。

Voxtral TTS 基于 Ministral 3B 架构，由 3.4B 参数的 Transformer 解码器主干、390M 参数的流匹配声学 Transformer 和 300M 参数的神经音频编解码器组成。模型采用自回归流匹配方法，能够原生生成最长两分钟的音频，并通过智能交错处理实现任意长度的生成。其模型延迟低至 70 毫秒（对于典型 10 秒语音样本和 500 字符输入），实时因子（RTF）约为 9.7 倍，非常适合需要低延迟的语音智能体应用。

模型在 9 种语言上实现了一流性能：英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。令人印象深刻的是，Voxtral TTS 仅需 3 秒的参考音频即可适配自定义声音，不仅捕捉声音本身，还能保留细微口音、语调甚至不流畅等细节。此外，模型展现出零样本跨语言声音适配能力，例如用法语语音提示生成英语语音时，输出自然带有法语口音，这使其适用于级联语音到语音翻译系统。

Voxtral TTS 现已通过 API 提供，定价为每千字符 0.016 美元。用户可以在 Mistral Studio 的演示环境中直接体验，或在 Le Chat 中使用。同时，Mistral AI 在 Hugging Face 上以 CC BY NC 4.0 许可证开源了带有若干参考声音的模型权重。该模型与 Voxtral Transcribe 配合可实现完整的语音到语音处理，或集成到现有的语音转文本和大语言模型栈中。Mistral AI 还计划举办网络研讨会介绍更多细节，并正在招聘相关人才。