AI News HubLIVE
站內改寫4 分鐘閱讀

Gradium發佈stt-translate和s2s-translate:實時語音翻譯模型,準確率和延遲均超越GPT Realtime Translate

Gradium推出了兩款實時語音翻譯模型:stt-translate(語音轉文本)和s2s-translate(語音轉語音),覆蓋英語、法語、德語、西班牙語和葡萄牙語共20種語言對。通過將傳統的三模型級聯簡化為兩個階段,模型在BLEU和MetricX指標上優於GPT Realtime Translate,平均延遲3.0秒,略遜於Gemini的2.9秒,但支持輸出語音選擇和克隆。

來源MarkTechPost作者: Asif Razzaq

Gradium公司今日發佈了兩款實時語音翻譯模型:stt-translate(語音到文本)和s2s-translate(語音到語音)。這兩個模型均支持五種語言,並且能夠在瀏覽器中實時流式傳輸結果。

Gradium聲稱,與gpt-realtime-translate和gemini-3.5-live-translate相比,其模型在準確性和延遲之間取得了更好的平衡。此外,它還增加了輸出語音控制功能,包括語音克隆,這是gpt-realtime-translate所不具備的。

簡要概述

  • Gradium推出了兩款實時語音翻譯模型:stt-translate(語音→文本)和s2s-translate(語音→語音)。
  • 模型覆蓋五種語言(英語、法語、德語、西班牙語、葡萄牙語)和20個語言對,將通常的三模型級聯精簡為兩個。
  • 準確性方面,在BLEU和MetricX指標上領先gemini-3.5-live-translate,在BLEU上超越gpt-realtime-translate(MetricX相當)。
  • 平均延遲3.0秒,優於gpt-realtime-translate(3.6秒),略遜於gemini-3.5-live-translate(2.9秒)。
  • 與gpt-realtime-translate不同,用户可以選擇輸出語音或克隆自己的聲音,全部通過一個雙工WebSocket連接完成。

stt-translate

stt-translate將一種語言的語音轉換為另一種語言的文本。它支持英語、法語、德語、西班牙語和葡萄牙語。源語言和目標語言之間的任意組合均可實現,總共覆蓋20個語言對,且支持雙向翻譯。

關鍵設計決策是將兩步合併為一步。轉錄和翻譯在語音模型內部單次完成,沒有中間轉錄文本的等待,也沒有系統間的交接。

據Gradium介紹,該方法借鑑了Hibiki-Zero框架。模型通過強化學習聯合優化低延遲和高準確性,減少了流水線中的組件數量。

s2s-translate

s2s-translate將一種語言的音頻端到端地轉換為另一種語言的音頻。它建立在stt-translate之上,並與Gradium的TTS模型配對,作為一個服務提供。

用户通過WebSocket流式傳輸音頻,模型同時返回合成的輸出音頻和翻譯後的轉錄文本。這消除了集成工作:用户無需自行連接STT和TTS系統,也無需管理兩個連接。服務器運行整個流水線並將結果流回。

輸入音頻為24 kHz、16位有符號單聲道PCM格式。輸出音頻為48 kHz、16位有符號單聲道PCM格式。同時支持WAV、Opus、µ-law和A-law格式。

質量評估:BLEU與MetricX

翻譯質量並非單一指標,Gradium報告了兩個互補的度量標準:

BLEU(雙語評估替代指標)是長期以來的機器翻譯標準。它衡量模型輸出與人工參考翻譯之間的n-gram重疊程度,分數範圍0-100,越高越好。BLEU快速、可重複、跨系統可比,但其侷限在於獎勵表面詞語匹配,如果正確翻譯使用了不同措辭,可能會受到懲罰。

MetricX是Google開發的基於學習的神經質量指標,它預測人類對翻譯的評價,以誤差分數表示,越低越好,比BLEU更接近人類判斷。

兩個指標捕捉不同的失敗類型:BLEU檢查詞彙忠實度,MetricX檢查語義充分性。

基準測試

Gradium在專有的對話語音數據集上進行基準測試,數據反映工作、旅行、天氣等日常主題,而非腳本文本。

與gemini-3.5-live-translate相比,Gradium在BLEU和MetricX上均領先。與gpt-realtime-translate相比,Gradium在BLEU上領先,MetricX相當。

| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均延遲(所有語言對) | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU(越高越好) | 領先兩者 | 低於Gradium | 低於Gradium | | MetricX(越低越好) | 與GPT相當;領先Gemini | 與Gradium相當 | 高於Gradium | | 選擇輸出語音 | 是(目錄) | 否 | 未説明 | | 克隆自己的聲音 | 是 | 否 | 未説明 | | 語言 | 5種語言,20個語言對 | 未説明 | 未説明 |

準確性(BLEU和MetricX)基於stt-translate的翻譯;延遲針對完整s2s-translate流水線。應將其視為權衡而非全勝:Gemini速度略快,Gradium更準確並增加了語音控制。

為何兩個模型勝過三個

標準的語音到語音堆棧使用三個模型:語音轉文本、文本到文本翻譯、文本到語音。每個階段都是一次獨立的推理調用,增加處理時間和交接。

Gradium使用兩個模型。stt-translate在單次處理中完成轉錄和翻譯,專門的文本到文本階段完全消失。這從關鍵路徑中移除了一個完整模型及其延遲和交接。端到端路徑比同等質量的三模型級聯更短。

數據支持這一設計:s2s-translate在所有語言對上的平均延遲為3.0秒,優於gpt-realtime-translate的3.6秒,接近gemini-3.5-live-translate的2.9秒。

用例示例

  • 實時配音和本地化:克隆一次演講者的聲音。將法語主題演講翻譯成西班牙語,但聽起來仍像原演講者。
  • 多語言語音助手:通過s2s-translate路由支持電話。英語客服聽到德語客户的英語翻譯,回覆流式返回德語。
  • 實時會議:通過WebSocket輸入麥克風音頻。每位參會者收到自己語言的翻譯語音和轉錄文本。
  • 可訪問性和字幕:僅需要文本時使用stt-translate,呈現實時翻譯字幕而無需生成音頻。

幾行代碼實現翻譯

Python SDK通過語音到語音端點流式傳輸音頻,並返回翻譯後的音頻和轉錄文本。

import asyncio
import numpy as np
from gradium import client as gradium_client

grc = gradium_client.GradiumClient() # 從環境變量讀取GRADIUM_API_KEY

setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000", # 24 kHz, 16位有符號單聲道輸入
    "output_format": "pcm_48000", # 48 kHz, 16位有符號單聲道輸出
    "voice_id": "cLONiZ4hQ8VpQ4Sz", # 必須是目標語言的聲音
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en",
}

# 原始24 kHz, 16位有符號單聲道PCM字節(來自文件、緩衝區或麥克風)
with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main() -> np.ndarray:
    audio_out: list[bytes] = []
    async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send_loop():
            for i in range(0, len(pcm), 1920): # 1920字節 = 24 kHz下40毫秒
                await s2s.send_audio(pcm[i : i + 1920])
            await s2s.send_eos() # 輸入結束信號

        async def recv_loop():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"]) # 翻譯後的語音(字節)
                elif msg["type"] == "text":
                    print(msg["text"], end=" ", flush=True) # 翻譯後的文本
                elif msg["type"] == "end_of_stream":
                    break

        async with asyncio.TaskGroup() as tg:
            tg.create_task(send_loop())
            tg.create_task(recv_loop())

    return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz單聲道PCM

translated_pcm = asyncio.run(main())

SDK提供了三種驅動S2S的方式:s2s_realtime用於實時源,s2s_stream用於有限可迭代對象,s2s用於緩衝文件。三者均連接至wss://api.gradium.ai/api/speech/s2s。

優勢與不足

優勢:

  • 單次stt-translate從延遲路徑中移除了一個模型。
  • 在BLEU和MetricX上領先gemini-3.5-live-translate。
  • 輸出語音選擇和克隆,gpt-realtime-translate缺乏此功能。
  • 單一雙工WebSocket替代了手動搭建的STT+TTS流水線。

不足:

  • 發佈時僅支持五種語言,20個語言對僅限於該集合內。
  • gemini-3.5-live-translate的延遲略低,為2.9秒。
  • MetricX與gpt-realtime-translate相當,而非領先。
  • 基準測試使用專有數據集,外部可復現性有限。

交互式演示

用户可以在gradium.ai/translate測試實時翻譯,API文檔中有集成細節。此外,歡迎關注Twitter,加入15萬+的ML子論壇,訂閲新聞通訊。可以通過Telegram加入我們。

如有合作推廣GitHub倉庫、Hugging Face頁面、產品發佈或網絡研討會等需求,請與我們聯繫。