2026-06-25 04:00 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-25 04:15 UTC+8

Gradium釋出stt-translate和s2s-translate：即時語音翻譯模型，準確率和延遲均超越GPT Realtime Translate

Gradium推出了兩款即時語音翻譯模型：stt-translate（語音轉文本）和s2s-translate（語音轉語音），覆蓋英語、法語、德語、西班牙語和葡萄牙語共20種語言對。透過將傳統的三模型級聯簡化為兩個階段，模型在BLEU和MetricX指標上優於GPT Realtime Translate，平均延遲3.0秒，略遜於Gemini的2.9秒，但支援輸出語音選擇和克隆。

來源MarkTechPost作者: Asif Razzaq

Gradium公司今日釋出了兩款即時語音翻譯模型：stt-translate（語音到文本）和s2s-translate（語音到語音）。這兩個模型均支援五種語言，並且能夠在瀏覽器中即時流式傳輸結果。

Gradium聲稱，與gpt-realtime-translate和gemini-3.5-live-translate相比，其模型在準確性和延遲之間取得了更好的平衡。此外，它還增加了輸出語音控制功能，包括語音克隆，這是gpt-realtime-translate所不具備的。

簡要概述

Gradium推出了兩款即時語音翻譯模型：stt-translate（語音→文本）和s2s-translate（語音→語音）。
模型覆蓋五種語言（英語、法語、德語、西班牙語、葡萄牙語）和20個語言對，將通常的三模型級聯精簡為兩個。
準確性方面，在BLEU和MetricX指標上領先gemini-3.5-live-translate，在BLEU上超越gpt-realtime-translate（MetricX相當）。
平均延遲3.0秒，優於gpt-realtime-translate（3.6秒），略遜於gemini-3.5-live-translate（2.9秒）。
與gpt-realtime-translate不同，使用者可以選擇輸出語音或克隆自己的聲音，全部透過一個雙工WebSocket連線完成。

stt-translate

stt-translate將一種語言的語音轉換為另一種語言的文本。它支援英語、法語、德語、西班牙語和葡萄牙語。源語言和目標語言之間的任意組合均可實現，總共覆蓋20個語言對，且支援雙向翻譯。

關鍵設計決策是將兩步合併為一步。轉錄和翻譯在語音模型內部單次完成，沒有中間轉錄文本的等待，也沒有系統間的交接。

據Gradium介紹，該方法借鑑了Hibiki-Zero框架。模型透過強化學習聯合最佳化低延遲和高準確性，減少了流水線中的元件數量。

s2s-translate

s2s-translate將一種語言的音訊端到端地轉換為另一種語言的音訊。它建立在stt-translate之上，並與Gradium的TTS模型配對，作為一個服務提供。

使用者透過WebSocket流式傳輸音訊，模型同時返回合成的輸出音訊和翻譯後的轉錄文本。這消除了整合工作：使用者無需自行連線STT和TTS系統，也無需管理兩個連線。伺服器執行整個流水線並將結果流回。

輸入音訊為24 kHz、16位有符號單聲道PCM格式。輸出音訊為48 kHz、16位有符號單聲道PCM格式。同時支援WAV、Opus、µ-law和A-law格式。

質量評估：BLEU與MetricX

翻譯質量並非單一指標，Gradium報告了兩個互補的度量標準：

BLEU（雙語評估替代指標）是長期以來的機器翻譯標準。它衡量模型輸出與人工參考翻譯之間的n-gram重疊程度，分數範圍0-100，越高越好。BLEU快速、可重複、跨系統可比，但其侷限在於獎勵表面詞語匹配，如果正確翻譯使用了不同措辭，可能會受到懲罰。

MetricX是Google開發的基於學習的神經質量指標，它預測人類對翻譯的評價，以誤差分數表示，越低越好，比BLEU更接近人類判斷。

兩個指標捕捉不同的失敗型別：BLEU檢查詞彙忠實度，MetricX檢查語義充分性。

基準測試

Gradium在專有的對話語音資料集上進行基準測試，資料反映工作、旅行、天氣等日常主題，而非指令碼文本。

與gemini-3.5-live-translate相比，Gradium在BLEU和MetricX上均領先。與gpt-realtime-translate相比，Gradium在BLEU上領先，MetricX相當。

| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均延遲（所有語言對） | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU（越高越好） | 領先兩者 | 低於Gradium | 低於Gradium | | MetricX（越低越好） | 與GPT相當；領先Gemini | 與Gradium相當 | 高於Gradium | | 選擇輸出語音 | 是（目錄） | 否 | 未說明 | | 克隆自己的聲音 | 是 | 否 | 未說明 | | 語言 | 5種語言，20個語言對 | 未說明 | 未說明 |

準確性（BLEU和MetricX）基於stt-translate的翻譯；延遲針對完整s2s-translate流水線。應將其視為權衡而非全勝：Gemini速度略快，Gradium更準確並增加了語音控制。

為何兩個模型勝過三個

標準的語音到語音堆疊使用三個模型：語音轉文本、文本到文本翻譯、文本到語音。每個階段都是一次獨立的推理呼叫，增加處理時間和交接。

Gradium使用兩個模型。stt-translate在單次處理中完成轉錄和翻譯，專門的文本到文本階段完全消失。這從關鍵路徑中移除了一個完整模型及其延遲和交接。端到端路徑比同等質量的三模型級聯更短。

資料支援這一設計：s2s-translate在所有語言對上的平均延遲為3.0秒，優於gpt-realtime-translate的3.6秒，接近gemini-3.5-live-translate的2.9秒。

用例示例

即時配音和本地化：克隆一次演講者的聲音。將法語主題演講翻譯成西班牙語，但聽起來仍像原演講者。
多語言語音助手：透過s2s-translate路由支援電話。英語客服聽到德語客戶的英語翻譯，回覆流式返回德語。
即時會議：透過WebSocket輸入麥克風音訊。每位參會者收到自己語言的翻譯語音和轉錄文本。
可訪問性和字幕：僅需要文本時使用stt-translate，呈現即時翻譯字幕而無需生成音訊。

幾行程式碼實現翻譯

Python SDK透過語音到語音端點流式傳輸音訊，並返回翻譯後的音訊和轉錄文本。

import asyncio
import numpy as np
from gradium import client as gradium_client

grc = gradium_client.GradiumClient() # 從環境變數讀取GRADIUM_API_KEY

setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000", # 24 kHz, 16位有符號單聲道輸入
    "output_format": "pcm_48000", # 48 kHz, 16位有符號單聲道輸出
    "voice_id": "cLONiZ4hQ8VpQ4Sz", # 必須是目標語言的聲音
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en",
}

# 原始24 kHz, 16位有符號單聲道PCM位元組（來自檔案、緩衝區或麥克風）
with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main() -> np.ndarray:
    audio_out: list[bytes] = []
    async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send_loop():
            for i in range(0, len(pcm), 1920): # 1920位元組 = 24 kHz下40毫秒
                await s2s.send_audio(pcm[i : i + 1920])
            await s2s.send_eos() # 輸入結束訊號

        async def recv_loop():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"]) # 翻譯後的語音（位元組）
                elif msg["type"] == "text":
                    print(msg["text"], end=" ", flush=True) # 翻譯後的文本
                elif msg["type"] == "end_of_stream":
                    break

        async with asyncio.TaskGroup() as tg:
            tg.create_task(send_loop())
            tg.create_task(recv_loop())

    return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz單聲道PCM

translated_pcm = asyncio.run(main())

SDK提供了三種驅動S2S的方式：s2s_realtime用於即時源，s2s_stream用於有限可迭代物件，s2s用於緩衝檔案。三者均連線至wss://api.gradium.ai/api/speech/s2s。

優勢與不足

優勢：

單次stt-translate從延遲路徑中移除了一個模型。
在BLEU和MetricX上領先gemini-3.5-live-translate。
輸出語音選擇和克隆，gpt-realtime-translate缺乏此功能。
單一雙工WebSocket替代了手動搭建的STT+TTS流水線。

不足：

釋出時僅支援五種語言，20個語言對僅限於該集合內。
gemini-3.5-live-translate的延遲略低，為2.9秒。
MetricX與gpt-realtime-translate相當，而非領先。
基準測試使用專有資料集，外部可復現性有限。

互動式演示

使用者可以在gradium.ai/translate測試即時翻譯，API文件中有整合細節。此外，歡迎關注Twitter，加入15萬+的ML子論壇，訂閱新聞通訊。可以透過Telegram加入我們。

如有合作推廣GitHub倉庫、Hugging Face頁面、產品釋出或網路研討會等需求，請與我們聯絡。