Gradium釋出stt-translate和s2s-translate:即時語音翻譯模型,準確率和延遲均超越GPT Realtime Translate
Gradium推出了兩款即時語音翻譯模型:stt-translate(語音轉文本)和s2s-translate(語音轉語音),覆蓋英語、法語、德語、西班牙語和葡萄牙語共20種語言對。透過將傳統的三模型級聯簡化為兩個階段,模型在BLEU和MetricX指標上優於GPT Realtime Translate,平均延遲3.0秒,略遜於Gemini的2.9秒,但支援輸出語音選擇和克隆。
Gradium公司今日釋出了兩款即時語音翻譯模型:stt-translate(語音到文本)和s2s-translate(語音到語音)。這兩個模型均支援五種語言,並且能夠在瀏覽器中即時流式傳輸結果。
Gradium聲稱,與gpt-realtime-translate和gemini-3.5-live-translate相比,其模型在準確性和延遲之間取得了更好的平衡。此外,它還增加了輸出語音控制功能,包括語音克隆,這是gpt-realtime-translate所不具備的。
簡要概述
- Gradium推出了兩款即時語音翻譯模型:stt-translate(語音→文本)和s2s-translate(語音→語音)。
- 模型覆蓋五種語言(英語、法語、德語、西班牙語、葡萄牙語)和20個語言對,將通常的三模型級聯精簡為兩個。
- 準確性方面,在BLEU和MetricX指標上領先gemini-3.5-live-translate,在BLEU上超越gpt-realtime-translate(MetricX相當)。
- 平均延遲3.0秒,優於gpt-realtime-translate(3.6秒),略遜於gemini-3.5-live-translate(2.9秒)。
- 與gpt-realtime-translate不同,使用者可以選擇輸出語音或克隆自己的聲音,全部透過一個雙工WebSocket連線完成。
stt-translate
stt-translate將一種語言的語音轉換為另一種語言的文本。它支援英語、法語、德語、西班牙語和葡萄牙語。源語言和目標語言之間的任意組合均可實現,總共覆蓋20個語言對,且支援雙向翻譯。
關鍵設計決策是將兩步合併為一步。轉錄和翻譯在語音模型內部單次完成,沒有中間轉錄文本的等待,也沒有系統間的交接。
據Gradium介紹,該方法借鑑了Hibiki-Zero框架。模型透過強化學習聯合最佳化低延遲和高準確性,減少了流水線中的元件數量。
s2s-translate
s2s-translate將一種語言的音訊端到端地轉換為另一種語言的音訊。它建立在stt-translate之上,並與Gradium的TTS模型配對,作為一個服務提供。
使用者透過WebSocket流式傳輸音訊,模型同時返回合成的輸出音訊和翻譯後的轉錄文本。這消除了整合工作:使用者無需自行連線STT和TTS系統,也無需管理兩個連線。伺服器執行整個流水線並將結果流回。
輸入音訊為24 kHz、16位有符號單聲道PCM格式。輸出音訊為48 kHz、16位有符號單聲道PCM格式。同時支援WAV、Opus、µ-law和A-law格式。
質量評估:BLEU與MetricX
翻譯質量並非單一指標,Gradium報告了兩個互補的度量標準:
BLEU(雙語評估替代指標)是長期以來的機器翻譯標準。它衡量模型輸出與人工參考翻譯之間的n-gram重疊程度,分數範圍0-100,越高越好。BLEU快速、可重複、跨系統可比,但其侷限在於獎勵表面詞語匹配,如果正確翻譯使用了不同措辭,可能會受到懲罰。
MetricX是Google開發的基於學習的神經質量指標,它預測人類對翻譯的評價,以誤差分數表示,越低越好,比BLEU更接近人類判斷。
兩個指標捕捉不同的失敗型別:BLEU檢查詞彙忠實度,MetricX檢查語義充分性。
基準測試
Gradium在專有的對話語音資料集上進行基準測試,資料反映工作、旅行、天氣等日常主題,而非指令碼文本。
與gemini-3.5-live-translate相比,Gradium在BLEU和MetricX上均領先。與gpt-realtime-translate相比,Gradium在BLEU上領先,MetricX相當。
| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均延遲(所有語言對) | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU(越高越好) | 領先兩者 | 低於Gradium | 低於Gradium | | MetricX(越低越好) | 與GPT相當;領先Gemini | 與Gradium相當 | 高於Gradium | | 選擇輸出語音 | 是(目錄) | 否 | 未說明 | | 克隆自己的聲音 | 是 | 否 | 未說明 | | 語言 | 5種語言,20個語言對 | 未說明 | 未說明 |
準確性(BLEU和MetricX)基於stt-translate的翻譯;延遲針對完整s2s-translate流水線。應將其視為權衡而非全勝:Gemini速度略快,Gradium更準確並增加了語音控制。
為何兩個模型勝過三個
標準的語音到語音堆疊使用三個模型:語音轉文本、文本到文本翻譯、文本到語音。每個階段都是一次獨立的推理呼叫,增加處理時間和交接。
Gradium使用兩個模型。stt-translate在單次處理中完成轉錄和翻譯,專門的文本到文本階段完全消失。這從關鍵路徑中移除了一個完整模型及其延遲和交接。端到端路徑比同等質量的三模型級聯更短。
資料支援這一設計:s2s-translate在所有語言對上的平均延遲為3.0秒,優於gpt-realtime-translate的3.6秒,接近gemini-3.5-live-translate的2.9秒。
用例示例
- 即時配音和本地化:克隆一次演講者的聲音。將法語主題演講翻譯成西班牙語,但聽起來仍像原演講者。
- 多語言語音助手:透過s2s-translate路由支援電話。英語客服聽到德語客戶的英語翻譯,回覆流式返回德語。
- 即時會議:透過WebSocket輸入麥克風音訊。每位參會者收到自己語言的翻譯語音和轉錄文本。
- 可訪問性和字幕:僅需要文本時使用stt-translate,呈現即時翻譯字幕而無需生成音訊。
幾行程式碼實現翻譯
Python SDK透過語音到語音端點流式傳輸音訊,並返回翻譯後的音訊和轉錄文本。
import asyncio
import numpy as np
from gradium import client as gradium_client
grc = gradium_client.GradiumClient() # 從環境變數讀取GRADIUM_API_KEY
setup = {
"model_name": "s2s-translate",
"input_format": "pcm_24000", # 24 kHz, 16位有符號單聲道輸入
"output_format": "pcm_48000", # 48 kHz, 16位有符號單聲道輸出
"voice_id": "cLONiZ4hQ8VpQ4Sz", # 必須是目標語言的聲音
"stt_model_name": "stt-translate",
"tts_model_name": "default",
"target_language": "en",
}
# 原始24 kHz, 16位有符號單聲道PCM位元組(來自檔案、緩衝區或麥克風)
with open("input_24k_mono.pcm", "rb") as f:
pcm = f.read()
async def main() -> np.ndarray:
audio_out: list[bytes] = []
async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
async def send_loop():
for i in range(0, len(pcm), 1920): # 1920位元組 = 24 kHz下40毫秒
await s2s.send_audio(pcm[i : i + 1920])
await s2s.send_eos() # 輸入結束訊號
async def recv_loop():
async for msg in s2s:
if msg["type"] == "audio":
audio_out.append(msg["audio"]) # 翻譯後的語音(位元組)
elif msg["type"] == "text":
print(msg["text"], end=" ", flush=True) # 翻譯後的文本
elif msg["type"] == "end_of_stream":
break
async with asyncio.TaskGroup() as tg:
tg.create_task(send_loop())
tg.create_task(recv_loop())
return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz單聲道PCM
translated_pcm = asyncio.run(main())SDK提供了三種驅動S2S的方式:s2s_realtime用於即時源,s2s_stream用於有限可迭代物件,s2s用於緩衝檔案。三者均連線至wss://api.gradium.ai/api/speech/s2s。
優勢與不足
優勢:
- 單次stt-translate從延遲路徑中移除了一個模型。
- 在BLEU和MetricX上領先gemini-3.5-live-translate。
- 輸出語音選擇和克隆,gpt-realtime-translate缺乏此功能。
- 單一雙工WebSocket替代了手動搭建的STT+TTS流水線。
不足:
- 釋出時僅支援五種語言,20個語言對僅限於該集合內。
- gemini-3.5-live-translate的延遲略低,為2.9秒。
- MetricX與gpt-realtime-translate相當,而非領先。
- 基準測試使用專有資料集,外部可復現性有限。
互動式演示
使用者可以在gradium.ai/translate測試即時翻譯,API文件中有整合細節。此外,歡迎關注Twitter,加入15萬+的ML子論壇,訂閱新聞通訊。可以透過Telegram加入我們。
如有合作推廣GitHub倉庫、Hugging Face頁面、產品釋出或網路研討會等需求,請與我們聯絡。