2026-05-28站内改写

前沿AI大語言模型、助手、智能體與服務 | Mistral AI

Mistral AI 發佈了其首個文本轉語音模型 Voxtral TTS，該模型參數量僅為 4B，支持 9 種語言，具有低延遲、高自然度的語音生成能力，並能夠快速適配新聲音。模型在自然度和情感表達方面優於競品，已通過 API 和開源權重發布。

文章情報

工程師進階

要點

Voxtral TTS 是 Mistral AI 的首款文本轉語音模型，參數量 4B，輕量高效。
支持英語、法語、德語等 9 種語言，具備情感表達和方言適應能力。
在人類評估中自然度優於 ElevenLabs Flash v2.5，質量與 ElevenLabs v3 持平。
可通過 3 秒參考音頻實現零樣本聲音適配，並支持跨語言聲音遷移。

為甚麼重要

這條新聞值得關注，因為Voxtral TTS 是 Mistral AI 的首款文本轉語音模型，參數量 4B，輕量高效。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Mistral AI 今日宣佈推出 Voxtral TTS，這是其首款文本轉語音模型，以 4B 的輕量參數實現了多語言語音生成領域的最新性能。該模型專為語音助手和智能體場景設計，在保持自然度、可靠性和成本效益的同時，實現了極低延遲。

Voxtral TTS 的核心優勢在於其能夠生成逼真且富有情感表達的語音，覆蓋 9 種主流語言並支持多種方言。模型通過對文本上下文的精準理解，能夠準確傳達中性、愉悦、諷刺等不同情緒。其聲音適配能力超越了傳統的朗讀式語音合成，能夠捕捉説話者的個性特徵，包括自然停頓、節奏、語調以及情感靈活性。這為企業構建自有語音 AI 棧提供了完整的控制和定製能力。

在性能方面，Mistral AI 進行了人類評估，將 Voxtral TTS 與 ElevenLabs 的最新模型進行對比。結果顯示，Voxtral TTS 在自然度上超越了 ElevenLabs Flash v2.5，同時保持了相似的首音頻延遲（TTFA），並且在質量上與 ElevenLabs v3 持平，成功支持情感導向以增強交互的真實感。在零樣本自定義聲音場景中，Voxtral TTS 進一步拉大了與 v2.5 Flash 的質量差距，凸顯了其即時定製任意聲音的能力。

Voxtral TTS 基於 Ministral 3B 架構，由 3.4B 參數的 Transformer 解碼器主幹、390M 參數的流匹配聲學 Transformer 和 300M 參數的神經音頻編解碼器組成。模型採用自迴歸流匹配方法，能夠原生生成最長兩分鐘的音頻，並通過智能交錯處理實現任意長度的生成。其模型延遲低至 70 毫秒（對於典型 10 秒語音樣本和 500 字符輸入），實時因子（RTF）約為 9.7 倍，非常適合需要低延遲的語音智能體應用。

模型在 9 種語言上實現了一流性能：英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、意大利語、印地語和阿拉伯語。令人印象深刻的是，Voxtral TTS 僅需 3 秒的參考音頻即可適配自定義聲音，不僅捕捉聲音本身，還能保留細微口音、語調甚至不流暢等細節。此外，模型展現出零樣本跨語言聲音適配能力，例如用法語語音提示生成英語語音時，輸出自然帶有法語口音，這使其適用於級聯語音到語音翻譯系統。

Voxtral TTS 現已通過 API 提供，定價為每千字符 0.016 美元。用户可以在 Mistral Studio 的演示環境中直接體驗，或在 Le Chat 中使用。同時，Mistral AI 在 Hugging Face 上以 CC BY NC 4.0 許可證開源了帶有若干參考聲音的模型權重。該模型與 Voxtral Transcribe 配合可實現完整的語音到語音處理，或集成到現有的語音轉文本和大語言模型棧中。Mistral AI 還計劃舉辦網絡研討會介紹更多細節，並正在招聘相關人才。