AI News HubLIVE
站内改写

前沿AI大语言模型、助手、智能体与服务 | Mistral AI

Mistral AI 发布了其首个文本转语音模型 Voxtral TTS,该模型参数量仅为 4B,支持 9 种语言,具有低延迟、高自然度的语音生成能力,并能够快速适配新声音。模型在自然度和情感表达方面优于竞品,已通过 API 和开源权重发布。

文章情报

工程师进阶

要点

  • Voxtral TTS 是 Mistral AI 的首款文本转语音模型,参数量 4B,轻量高效。
  • 支持英语、法语、德语等 9 种语言,具备情感表达和方言适应能力。
  • 在人类评估中自然度优于 ElevenLabs Flash v2.5,质量与 ElevenLabs v3 持平。
  • 可通过 3 秒参考音频实现零样本声音适配,并支持跨语言声音迁移。

为什么重要

这条新闻值得关注,因为Voxtral TTS 是 Mistral AI 的首款文本转语音模型,参数量 4B,轻量高效。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Mistral AI 今日宣布推出 Voxtral TTS,这是其首款文本转语音模型,以 4B 的轻量参数实现了多语言语音生成领域的最新性能。该模型专为语音助手和智能体场景设计,在保持自然度、可靠性和成本效益的同时,实现了极低延迟。

Voxtral TTS 的核心优势在于其能够生成逼真且富有情感表达的语音,覆盖 9 种主流语言并支持多种方言。模型通过对文本上下文的精准理解,能够准确传达中性、愉悦、讽刺等不同情绪。其声音适配能力超越了传统的朗读式语音合成,能够捕捉说话者的个性特征,包括自然停顿、节奏、语调以及情感灵活性。这为企业构建自有语音 AI 栈提供了完整的控制和定制能力。

在性能方面,Mistral AI 进行了人类评估,将 Voxtral TTS 与 ElevenLabs 的最新模型进行对比。结果显示,Voxtral TTS 在自然度上超越了 ElevenLabs Flash v2.5,同时保持了相似的首音频延迟(TTFA),并且在质量上与 ElevenLabs v3 持平,成功支持情感导向以增强交互的真实感。在零样本自定义声音场景中,Voxtral TTS 进一步拉大了与 v2.5 Flash 的质量差距,凸显了其即时定制任意声音的能力。

Voxtral TTS 基于 Ministral 3B 架构,由 3.4B 参数的 Transformer 解码器主干、390M 参数的流匹配声学 Transformer 和 300M 参数的神经音频编解码器组成。模型采用自回归流匹配方法,能够原生生成最长两分钟的音频,并通过智能交错处理实现任意长度的生成。其模型延迟低至 70 毫秒(对于典型 10 秒语音样本和 500 字符输入),实时因子(RTF)约为 9.7 倍,非常适合需要低延迟的语音智能体应用。

模型在 9 种语言上实现了一流性能:英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。令人印象深刻的是,Voxtral TTS 仅需 3 秒的参考音频即可适配自定义声音,不仅捕捉声音本身,还能保留细微口音、语调甚至不流畅等细节。此外,模型展现出零样本跨语言声音适配能力,例如用法语语音提示生成英语语音时,输出自然带有法语口音,这使其适用于级联语音到语音翻译系统。

Voxtral TTS 现已通过 API 提供,定价为每千字符 0.016 美元。用户可以在 Mistral Studio 的演示环境中直接体验,或在 Le Chat 中使用。同时,Mistral AI 在 Hugging Face 上以 CC BY NC 4.0 许可证开源了带有若干参考声音的模型权重。该模型与 Voxtral Transcribe 配合可实现完整的语音到语音处理,或集成到现有的语音转文本和大语言模型栈中。Mistral AI 还计划举办网络研讨会介绍更多细节,并正在招聘相关人才。