2026-06-25 04:00 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-25 04:15 UTC+8

Gradium發佈stt-translate和s2s-translate：實時語音翻譯模型，準確率和延遲均超越GPT Realtime Translate

Gradium推出了兩款實時語音翻譯模型：stt-translate（語音轉文本）和s2s-translate（語音轉語音），覆蓋英語、法語、德語、西班牙語和葡萄牙語共20種語言對。通過將傳統的三模型級聯簡化為兩個階段，模型在BLEU和MetricX指標上優於GPT Realtime Translate，平均延遲3.0秒，略遜於Gemini的2.9秒，但支持輸出語音選擇和克隆。

來源MarkTechPost作者: Asif Razzaq

Gradium公司今日發佈了兩款實時語音翻譯模型：stt-translate（語音到文本）和s2s-translate（語音到語音）。這兩個模型均支持五種語言，並且能夠在瀏覽器中實時流式傳輸結果。

Gradium聲稱，與gpt-realtime-translate和gemini-3.5-live-translate相比，其模型在準確性和延遲之間取得了更好的平衡。此外，它還增加了輸出語音控制功能，包括語音克隆，這是gpt-realtime-translate所不具備的。

簡要概述

Gradium推出了兩款實時語音翻譯模型：stt-translate（語音→文本）和s2s-translate（語音→語音）。
模型覆蓋五種語言（英語、法語、德語、西班牙語、葡萄牙語）和20個語言對，將通常的三模型級聯精簡為兩個。
準確性方面，在BLEU和MetricX指標上領先gemini-3.5-live-translate，在BLEU上超越gpt-realtime-translate（MetricX相當）。
平均延遲3.0秒，優於gpt-realtime-translate（3.6秒），略遜於gemini-3.5-live-translate（2.9秒）。
與gpt-realtime-translate不同，用户可以選擇輸出語音或克隆自己的聲音，全部通過一個雙工WebSocket連接完成。

stt-translate

stt-translate將一種語言的語音轉換為另一種語言的文本。它支持英語、法語、德語、西班牙語和葡萄牙語。源語言和目標語言之間的任意組合均可實現，總共覆蓋20個語言對，且支持雙向翻譯。

關鍵設計決策是將兩步合併為一步。轉錄和翻譯在語音模型內部單次完成，沒有中間轉錄文本的等待，也沒有系統間的交接。

據Gradium介紹，該方法借鑑了Hibiki-Zero框架。模型通過強化學習聯合優化低延遲和高準確性，減少了流水線中的組件數量。

s2s-translate

s2s-translate將一種語言的音頻端到端地轉換為另一種語言的音頻。它建立在stt-translate之上，並與Gradium的TTS模型配對，作為一個服務提供。

用户通過WebSocket流式傳輸音頻，模型同時返回合成的輸出音頻和翻譯後的轉錄文本。這消除了集成工作：用户無需自行連接STT和TTS系統，也無需管理兩個連接。服務器運行整個流水線並將結果流回。

輸入音頻為24 kHz、16位有符號單聲道PCM格式。輸出音頻為48 kHz、16位有符號單聲道PCM格式。同時支持WAV、Opus、µ-law和A-law格式。

質量評估：BLEU與MetricX

翻譯質量並非單一指標，Gradium報告了兩個互補的度量標準：

BLEU（雙語評估替代指標）是長期以來的機器翻譯標準。它衡量模型輸出與人工參考翻譯之間的n-gram重疊程度，分數範圍0-100，越高越好。BLEU快速、可重複、跨系統可比，但其侷限在於獎勵表面詞語匹配，如果正確翻譯使用了不同措辭，可能會受到懲罰。

MetricX是Google開發的基於學習的神經質量指標，它預測人類對翻譯的評價，以誤差分數表示，越低越好，比BLEU更接近人類判斷。

兩個指標捕捉不同的失敗類型：BLEU檢查詞彙忠實度，MetricX檢查語義充分性。

基準測試

Gradium在專有的對話語音數據集上進行基準測試，數據反映工作、旅行、天氣等日常主題，而非腳本文本。

與gemini-3.5-live-translate相比，Gradium在BLEU和MetricX上均領先。與gpt-realtime-translate相比，Gradium在BLEU上領先，MetricX相當。

| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均延遲（所有語言對） | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU（越高越好） | 領先兩者 | 低於Gradium | 低於Gradium | | MetricX（越低越好） | 與GPT相當；領先Gemini | 與Gradium相當 | 高於Gradium | | 選擇輸出語音 | 是（目錄） | 否 | 未説明 | | 克隆自己的聲音 | 是 | 否 | 未説明 | | 語言 | 5種語言，20個語言對 | 未説明 | 未説明 |

準確性（BLEU和MetricX）基於stt-translate的翻譯；延遲針對完整s2s-translate流水線。應將其視為權衡而非全勝：Gemini速度略快，Gradium更準確並增加了語音控制。

為何兩個模型勝過三個

標準的語音到語音堆棧使用三個模型：語音轉文本、文本到文本翻譯、文本到語音。每個階段都是一次獨立的推理調用，增加處理時間和交接。

Gradium使用兩個模型。stt-translate在單次處理中完成轉錄和翻譯，專門的文本到文本階段完全消失。這從關鍵路徑中移除了一個完整模型及其延遲和交接。端到端路徑比同等質量的三模型級聯更短。

數據支持這一設計：s2s-translate在所有語言對上的平均延遲為3.0秒，優於gpt-realtime-translate的3.6秒，接近gemini-3.5-live-translate的2.9秒。

用例示例

實時配音和本地化：克隆一次演講者的聲音。將法語主題演講翻譯成西班牙語，但聽起來仍像原演講者。
多語言語音助手：通過s2s-translate路由支持電話。英語客服聽到德語客户的英語翻譯，回覆流式返回德語。
實時會議：通過WebSocket輸入麥克風音頻。每位參會者收到自己語言的翻譯語音和轉錄文本。
可訪問性和字幕：僅需要文本時使用stt-translate，呈現實時翻譯字幕而無需生成音頻。

幾行代碼實現翻譯

Python SDK通過語音到語音端點流式傳輸音頻，並返回翻譯後的音頻和轉錄文本。

import asyncio
import numpy as np
from gradium import client as gradium_client

grc = gradium_client.GradiumClient() # 從環境變量讀取GRADIUM_API_KEY

setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000", # 24 kHz, 16位有符號單聲道輸入
    "output_format": "pcm_48000", # 48 kHz, 16位有符號單聲道輸出
    "voice_id": "cLONiZ4hQ8VpQ4Sz", # 必須是目標語言的聲音
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en",
}

# 原始24 kHz, 16位有符號單聲道PCM字節（來自文件、緩衝區或麥克風）
with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main() -> np.ndarray:
    audio_out: list[bytes] = []
    async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send_loop():
            for i in range(0, len(pcm), 1920): # 1920字節 = 24 kHz下40毫秒
                await s2s.send_audio(pcm[i : i + 1920])
            await s2s.send_eos() # 輸入結束信號

        async def recv_loop():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"]) # 翻譯後的語音（字節）
                elif msg["type"] == "text":
                    print(msg["text"], end=" ", flush=True) # 翻譯後的文本
                elif msg["type"] == "end_of_stream":
                    break

        async with asyncio.TaskGroup() as tg:
            tg.create_task(send_loop())
            tg.create_task(recv_loop())

    return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz單聲道PCM

translated_pcm = asyncio.run(main())

SDK提供了三種驅動S2S的方式：s2s_realtime用於實時源，s2s_stream用於有限可迭代對象，s2s用於緩衝文件。三者均連接至wss://api.gradium.ai/api/speech/s2s。

優勢與不足

優勢：

單次stt-translate從延遲路徑中移除了一個模型。
在BLEU和MetricX上領先gemini-3.5-live-translate。
輸出語音選擇和克隆，gpt-realtime-translate缺乏此功能。
單一雙工WebSocket替代了手動搭建的STT+TTS流水線。

不足：

發佈時僅支持五種語言，20個語言對僅限於該集合內。
gemini-3.5-live-translate的延遲略低，為2.9秒。
MetricX與gpt-realtime-translate相當，而非領先。
基準測試使用專有數據集，外部可復現性有限。

交互式演示

用户可以在gradium.ai/translate測試實時翻譯，API文檔中有集成細節。此外，歡迎關注Twitter，加入15萬+的ML子論壇，訂閲新聞通訊。可以通過Telegram加入我們。

如有合作推廣GitHub倉庫、Hugging Face頁面、產品發佈或網絡研討會等需求，請與我們聯繫。