前沿AI大語言模型、助手、智能體與服務 | Mistral AI
Mistral AI 發佈了其首個文本轉語音模型 Voxtral TTS,該模型參數量僅為 4B,支持 9 種語言,具有低延遲、高自然度的語音生成能力,並能夠快速適配新聲音。模型在自然度和情感表達方面優於競品,已通過 API 和開源權重發布。
文章情報
要點
- Voxtral TTS 是 Mistral AI 的首款文本轉語音模型,參數量 4B,輕量高效。
- 支持英語、法語、德語等 9 種語言,具備情感表達和方言適應能力。
- 在人類評估中自然度優於 ElevenLabs Flash v2.5,質量與 ElevenLabs v3 持平。
- 可通過 3 秒參考音頻實現零樣本聲音適配,並支持跨語言聲音遷移。
為甚麼重要
這條新聞值得關注,因為Voxtral TTS 是 Mistral AI 的首款文本轉語音模型,參數量 4B,輕量高效。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Mistral AI 今日宣佈推出 Voxtral TTS,這是其首款文本轉語音模型,以 4B 的輕量參數實現了多語言語音生成領域的最新性能。該模型專為語音助手和智能體場景設計,在保持自然度、可靠性和成本效益的同時,實現了極低延遲。
Voxtral TTS 的核心優勢在於其能夠生成逼真且富有情感表達的語音,覆蓋 9 種主流語言並支持多種方言。模型通過對文本上下文的精準理解,能夠準確傳達中性、愉悦、諷刺等不同情緒。其聲音適配能力超越了傳統的朗讀式語音合成,能夠捕捉説話者的個性特徵,包括自然停頓、節奏、語調以及情感靈活性。這為企業構建自有語音 AI 棧提供了完整的控制和定製能力。
在性能方面,Mistral AI 進行了人類評估,將 Voxtral TTS 與 ElevenLabs 的最新模型進行對比。結果顯示,Voxtral TTS 在自然度上超越了 ElevenLabs Flash v2.5,同時保持了相似的首音頻延遲(TTFA),並且在質量上與 ElevenLabs v3 持平,成功支持情感導向以增強交互的真實感。在零樣本自定義聲音場景中,Voxtral TTS 進一步拉大了與 v2.5 Flash 的質量差距,凸顯了其即時定製任意聲音的能力。
Voxtral TTS 基於 Ministral 3B 架構,由 3.4B 參數的 Transformer 解碼器主幹、390M 參數的流匹配聲學 Transformer 和 300M 參數的神經音頻編解碼器組成。模型採用自迴歸流匹配方法,能夠原生生成最長兩分鐘的音頻,並通過智能交錯處理實現任意長度的生成。其模型延遲低至 70 毫秒(對於典型 10 秒語音樣本和 500 字符輸入),實時因子(RTF)約為 9.7 倍,非常適合需要低延遲的語音智能體應用。
模型在 9 種語言上實現了一流性能:英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、意大利語、印地語和阿拉伯語。令人印象深刻的是,Voxtral TTS 僅需 3 秒的參考音頻即可適配自定義聲音,不僅捕捉聲音本身,還能保留細微口音、語調甚至不流暢等細節。此外,模型展現出零樣本跨語言聲音適配能力,例如用法語語音提示生成英語語音時,輸出自然帶有法語口音,這使其適用於級聯語音到語音翻譯系統。
Voxtral TTS 現已通過 API 提供,定價為每千字符 0.016 美元。用户可以在 Mistral Studio 的演示環境中直接體驗,或在 Le Chat 中使用。同時,Mistral AI 在 Hugging Face 上以 CC BY NC 4.0 許可證開源了帶有若干參考聲音的模型權重。該模型與 Voxtral Transcribe 配合可實現完整的語音到語音處理,或集成到現有的語音轉文本和大語言模型棧中。Mistral AI 還計劃舉辦網絡研討會介紹更多細節,並正在招聘相關人才。