AI News HubLIVE
站內改寫4 分鐘閱讀

Gradium釋出stt-translate和s2s-translate:即時語音翻譯模型,準確率和延遲均超越GPT Realtime Translate

Gradium推出了兩款即時語音翻譯模型:stt-translate(語音轉文本)和s2s-translate(語音轉語音),覆蓋英語、法語、德語、西班牙語和葡萄牙語共20種語言對。透過將傳統的三模型級聯簡化為兩個階段,模型在BLEU和MetricX指標上優於GPT Realtime Translate,平均延遲3.0秒,略遜於Gemini的2.9秒,但支援輸出語音選擇和克隆。

來源MarkTechPost作者: Asif Razzaq

Gradium公司今日釋出了兩款即時語音翻譯模型:stt-translate(語音到文本)和s2s-translate(語音到語音)。這兩個模型均支援五種語言,並且能夠在瀏覽器中即時流式傳輸結果。

Gradium聲稱,與gpt-realtime-translate和gemini-3.5-live-translate相比,其模型在準確性和延遲之間取得了更好的平衡。此外,它還增加了輸出語音控制功能,包括語音克隆,這是gpt-realtime-translate所不具備的。

簡要概述

  • Gradium推出了兩款即時語音翻譯模型:stt-translate(語音→文本)和s2s-translate(語音→語音)。
  • 模型覆蓋五種語言(英語、法語、德語、西班牙語、葡萄牙語)和20個語言對,將通常的三模型級聯精簡為兩個。
  • 準確性方面,在BLEU和MetricX指標上領先gemini-3.5-live-translate,在BLEU上超越gpt-realtime-translate(MetricX相當)。
  • 平均延遲3.0秒,優於gpt-realtime-translate(3.6秒),略遜於gemini-3.5-live-translate(2.9秒)。
  • 與gpt-realtime-translate不同,使用者可以選擇輸出語音或克隆自己的聲音,全部透過一個雙工WebSocket連線完成。

stt-translate

stt-translate將一種語言的語音轉換為另一種語言的文本。它支援英語、法語、德語、西班牙語和葡萄牙語。源語言和目標語言之間的任意組合均可實現,總共覆蓋20個語言對,且支援雙向翻譯。

關鍵設計決策是將兩步合併為一步。轉錄和翻譯在語音模型內部單次完成,沒有中間轉錄文本的等待,也沒有系統間的交接。

據Gradium介紹,該方法借鑑了Hibiki-Zero框架。模型透過強化學習聯合最佳化低延遲和高準確性,減少了流水線中的元件數量。

s2s-translate

s2s-translate將一種語言的音訊端到端地轉換為另一種語言的音訊。它建立在stt-translate之上,並與Gradium的TTS模型配對,作為一個服務提供。

使用者透過WebSocket流式傳輸音訊,模型同時返回合成的輸出音訊和翻譯後的轉錄文本。這消除了整合工作:使用者無需自行連線STT和TTS系統,也無需管理兩個連線。伺服器執行整個流水線並將結果流回。

輸入音訊為24 kHz、16位有符號單聲道PCM格式。輸出音訊為48 kHz、16位有符號單聲道PCM格式。同時支援WAV、Opus、µ-law和A-law格式。

質量評估:BLEU與MetricX

翻譯質量並非單一指標,Gradium報告了兩個互補的度量標準:

BLEU(雙語評估替代指標)是長期以來的機器翻譯標準。它衡量模型輸出與人工參考翻譯之間的n-gram重疊程度,分數範圍0-100,越高越好。BLEU快速、可重複、跨系統可比,但其侷限在於獎勵表面詞語匹配,如果正確翻譯使用了不同措辭,可能會受到懲罰。

MetricX是Google開發的基於學習的神經質量指標,它預測人類對翻譯的評價,以誤差分數表示,越低越好,比BLEU更接近人類判斷。

兩個指標捕捉不同的失敗型別:BLEU檢查詞彙忠實度,MetricX檢查語義充分性。

基準測試

Gradium在專有的對話語音資料集上進行基準測試,資料反映工作、旅行、天氣等日常主題,而非指令碼文本。

與gemini-3.5-live-translate相比,Gradium在BLEU和MetricX上均領先。與gpt-realtime-translate相比,Gradium在BLEU上領先,MetricX相當。

| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均延遲(所有語言對) | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU(越高越好) | 領先兩者 | 低於Gradium | 低於Gradium | | MetricX(越低越好) | 與GPT相當;領先Gemini | 與Gradium相當 | 高於Gradium | | 選擇輸出語音 | 是(目錄) | 否 | 未說明 | | 克隆自己的聲音 | 是 | 否 | 未說明 | | 語言 | 5種語言,20個語言對 | 未說明 | 未說明 |

準確性(BLEU和MetricX)基於stt-translate的翻譯;延遲針對完整s2s-translate流水線。應將其視為權衡而非全勝:Gemini速度略快,Gradium更準確並增加了語音控制。

為何兩個模型勝過三個

標準的語音到語音堆疊使用三個模型:語音轉文本、文本到文本翻譯、文本到語音。每個階段都是一次獨立的推理呼叫,增加處理時間和交接。

Gradium使用兩個模型。stt-translate在單次處理中完成轉錄和翻譯,專門的文本到文本階段完全消失。這從關鍵路徑中移除了一個完整模型及其延遲和交接。端到端路徑比同等質量的三模型級聯更短。

資料支援這一設計:s2s-translate在所有語言對上的平均延遲為3.0秒,優於gpt-realtime-translate的3.6秒,接近gemini-3.5-live-translate的2.9秒。

用例示例

  • 即時配音和本地化:克隆一次演講者的聲音。將法語主題演講翻譯成西班牙語,但聽起來仍像原演講者。
  • 多語言語音助手:透過s2s-translate路由支援電話。英語客服聽到德語客戶的英語翻譯,回覆流式返回德語。
  • 即時會議:透過WebSocket輸入麥克風音訊。每位參會者收到自己語言的翻譯語音和轉錄文本。
  • 可訪問性和字幕:僅需要文本時使用stt-translate,呈現即時翻譯字幕而無需生成音訊。

幾行程式碼實現翻譯

Python SDK透過語音到語音端點流式傳輸音訊,並返回翻譯後的音訊和轉錄文本。

import asyncio
import numpy as np
from gradium import client as gradium_client

grc = gradium_client.GradiumClient() # 從環境變數讀取GRADIUM_API_KEY

setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000", # 24 kHz, 16位有符號單聲道輸入
    "output_format": "pcm_48000", # 48 kHz, 16位有符號單聲道輸出
    "voice_id": "cLONiZ4hQ8VpQ4Sz", # 必須是目標語言的聲音
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en",
}

# 原始24 kHz, 16位有符號單聲道PCM位元組(來自檔案、緩衝區或麥克風)
with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main() -> np.ndarray:
    audio_out: list[bytes] = []
    async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send_loop():
            for i in range(0, len(pcm), 1920): # 1920位元組 = 24 kHz下40毫秒
                await s2s.send_audio(pcm[i : i + 1920])
            await s2s.send_eos() # 輸入結束訊號

        async def recv_loop():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"]) # 翻譯後的語音(位元組)
                elif msg["type"] == "text":
                    print(msg["text"], end=" ", flush=True) # 翻譯後的文本
                elif msg["type"] == "end_of_stream":
                    break

        async with asyncio.TaskGroup() as tg:
            tg.create_task(send_loop())
            tg.create_task(recv_loop())

    return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz單聲道PCM

translated_pcm = asyncio.run(main())

SDK提供了三種驅動S2S的方式:s2s_realtime用於即時源,s2s_stream用於有限可迭代物件,s2s用於緩衝檔案。三者均連線至wss://api.gradium.ai/api/speech/s2s。

優勢與不足

優勢:

  • 單次stt-translate從延遲路徑中移除了一個模型。
  • 在BLEU和MetricX上領先gemini-3.5-live-translate。
  • 輸出語音選擇和克隆,gpt-realtime-translate缺乏此功能。
  • 單一雙工WebSocket替代了手動搭建的STT+TTS流水線。

不足:

  • 釋出時僅支援五種語言,20個語言對僅限於該集合內。
  • gemini-3.5-live-translate的延遲略低,為2.9秒。
  • MetricX與gpt-realtime-translate相當,而非領先。
  • 基準測試使用專有資料集,外部可復現性有限。

互動式演示

使用者可以在gradium.ai/translate測試即時翻譯,API文件中有整合細節。此外,歡迎關注Twitter,加入15萬+的ML子論壇,訂閱新聞通訊。可以透過Telegram加入我們。

如有合作推廣GitHub倉庫、Hugging Face頁面、產品釋出或網路研討會等需求,請與我們聯絡。