Gradium发布stt-translate和s2s-translate:实时语音翻译模型,准确率和延迟均超越GPT Realtime Translate
Gradium推出了两款实时语音翻译模型:stt-translate(语音转文本)和s2s-translate(语音转语音),覆盖英语、法语、德语、西班牙语和葡萄牙语共20种语言对。通过将传统的三模型级联简化为两个阶段,模型在BLEU和MetricX指标上优于GPT Realtime Translate,平均延迟3.0秒,略逊于Gemini的2.9秒,但支持输出语音选择和克隆。
Gradium公司今日发布了两款实时语音翻译模型:stt-translate(语音到文本)和s2s-translate(语音到语音)。这两个模型均支持五种语言,并且能够在浏览器中实时流式传输结果。
Gradium声称,与gpt-realtime-translate和gemini-3.5-live-translate相比,其模型在准确性和延迟之间取得了更好的平衡。此外,它还增加了输出语音控制功能,包括语音克隆,这是gpt-realtime-translate所不具备的。
简要概述
- Gradium推出了两款实时语音翻译模型:stt-translate(语音→文本)和s2s-translate(语音→语音)。
- 模型覆盖五种语言(英语、法语、德语、西班牙语、葡萄牙语)和20个语言对,将通常的三模型级联精简为两个。
- 准确性方面,在BLEU和MetricX指标上领先gemini-3.5-live-translate,在BLEU上超越gpt-realtime-translate(MetricX相当)。
- 平均延迟3.0秒,优于gpt-realtime-translate(3.6秒),略逊于gemini-3.5-live-translate(2.9秒)。
- 与gpt-realtime-translate不同,用户可以选择输出语音或克隆自己的声音,全部通过一个双工WebSocket连接完成。
stt-translate
stt-translate将一种语言的语音转换为另一种语言的文本。它支持英语、法语、德语、西班牙语和葡萄牙语。源语言和目标语言之间的任意组合均可实现,总共覆盖20个语言对,且支持双向翻译。
关键设计决策是将两步合并为一步。转录和翻译在语音模型内部单次完成,没有中间转录文本的等待,也没有系统间的交接。
据Gradium介绍,该方法借鉴了Hibiki-Zero框架。模型通过强化学习联合优化低延迟和高准确性,减少了流水线中的组件数量。
s2s-translate
s2s-translate将一种语言的音频端到端地转换为另一种语言的音频。它建立在stt-translate之上,并与Gradium的TTS模型配对,作为一个服务提供。
用户通过WebSocket流式传输音频,模型同时返回合成的输出音频和翻译后的转录文本。这消除了集成工作:用户无需自行连接STT和TTS系统,也无需管理两个连接。服务器运行整个流水线并将结果流回。
输入音频为24 kHz、16位有符号单声道PCM格式。输出音频为48 kHz、16位有符号单声道PCM格式。同时支持WAV、Opus、µ-law和A-law格式。
质量评估:BLEU与MetricX
翻译质量并非单一指标,Gradium报告了两个互补的度量标准:
BLEU(双语评估替代指标)是长期以来的机器翻译标准。它衡量模型输出与人工参考翻译之间的n-gram重叠程度,分数范围0-100,越高越好。BLEU快速、可重复、跨系统可比,但其局限在于奖励表面词语匹配,如果正确翻译使用了不同措辞,可能会受到惩罚。
MetricX是Google开发的基于学习的神经质量指标,它预测人类对翻译的评价,以误差分数表示,越低越好,比BLEU更接近人类判断。
两个指标捕捉不同的失败类型:BLEU检查词汇忠实度,MetricX检查语义充分性。
基准测试
Gradium在专有的对话语音数据集上进行基准测试,数据反映工作、旅行、天气等日常主题,而非脚本文本。
与gemini-3.5-live-translate相比,Gradium在BLEU和MetricX上均领先。与gpt-realtime-translate相比,Gradium在BLEU上领先,MetricX相当。
| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均延迟(所有语言对) | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU(越高越好) | 领先两者 | 低于Gradium | 低于Gradium | | MetricX(越低越好) | 与GPT相当;领先Gemini | 与Gradium相当 | 高于Gradium | | 选择输出语音 | 是(目录) | 否 | 未说明 | | 克隆自己的声音 | 是 | 否 | 未说明 | | 语言 | 5种语言,20个语言对 | 未说明 | 未说明 |
准确性(BLEU和MetricX)基于stt-translate的翻译;延迟针对完整s2s-translate流水线。应将其视为权衡而非全胜:Gemini速度略快,Gradium更准确并增加了语音控制。
为何两个模型胜过三个
标准的语音到语音堆栈使用三个模型:语音转文本、文本到文本翻译、文本到语音。每个阶段都是一次独立的推理调用,增加处理时间和交接。
Gradium使用两个模型。stt-translate在单次处理中完成转录和翻译,专门的文本到文本阶段完全消失。这从关键路径中移除了一个完整模型及其延迟和交接。端到端路径比同等质量的三模型级联更短。
数据支持这一设计:s2s-translate在所有语言对上的平均延迟为3.0秒,优于gpt-realtime-translate的3.6秒,接近gemini-3.5-live-translate的2.9秒。
用例示例
- 实时配音和本地化:克隆一次演讲者的声音。将法语主题演讲翻译成西班牙语,但听起来仍像原演讲者。
- 多语言语音助手:通过s2s-translate路由支持电话。英语客服听到德语客户的英语翻译,回复流式返回德语。
- 实时会议:通过WebSocket输入麦克风音频。每位参会者收到自己语言的翻译语音和转录文本。
- 可访问性和字幕:仅需要文本时使用stt-translate,呈现实时翻译字幕而无需生成音频。
几行代码实现翻译
Python SDK通过语音到语音端点流式传输音频,并返回翻译后的音频和转录文本。
import asyncio
import numpy as np
from gradium import client as gradium_client
grc = gradium_client.GradiumClient() # 从环境变量读取GRADIUM_API_KEY
setup = {
"model_name": "s2s-translate",
"input_format": "pcm_24000", # 24 kHz, 16位有符号单声道输入
"output_format": "pcm_48000", # 48 kHz, 16位有符号单声道输出
"voice_id": "cLONiZ4hQ8VpQ4Sz", # 必须是目标语言的声音
"stt_model_name": "stt-translate",
"tts_model_name": "default",
"target_language": "en",
}
# 原始24 kHz, 16位有符号单声道PCM字节(来自文件、缓冲区或麦克风)
with open("input_24k_mono.pcm", "rb") as f:
pcm = f.read()
async def main() -> np.ndarray:
audio_out: list[bytes] = []
async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
async def send_loop():
for i in range(0, len(pcm), 1920): # 1920字节 = 24 kHz下40毫秒
await s2s.send_audio(pcm[i : i + 1920])
await s2s.send_eos() # 输入结束信号
async def recv_loop():
async for msg in s2s:
if msg["type"] == "audio":
audio_out.append(msg["audio"]) # 翻译后的语音(字节)
elif msg["type"] == "text":
print(msg["text"], end=" ", flush=True) # 翻译后的文本
elif msg["type"] == "end_of_stream":
break
async with asyncio.TaskGroup() as tg:
tg.create_task(send_loop())
tg.create_task(recv_loop())
return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz单声道PCM
translated_pcm = asyncio.run(main())SDK提供了三种驱动S2S的方式:s2s_realtime用于实时源,s2s_stream用于有限可迭代对象,s2s用于缓冲文件。三者均连接至wss://api.gradium.ai/api/speech/s2s。
优势与不足
优势:
- 单次stt-translate从延迟路径中移除了一个模型。
- 在BLEU和MetricX上领先gemini-3.5-live-translate。
- 输出语音选择和克隆,gpt-realtime-translate缺乏此功能。
- 单一双工WebSocket替代了手动搭建的STT+TTS流水线。
不足:
- 发布时仅支持五种语言,20个语言对仅限于该集合内。
- gemini-3.5-live-translate的延迟略低,为2.9秒。
- MetricX与gpt-realtime-translate相当,而非领先。
- 基准测试使用专有数据集,外部可复现性有限。
交互式演示
用户可以在gradium.ai/translate测试实时翻译,API文档中有集成细节。此外,欢迎关注Twitter,加入15万+的ML子论坛,订阅新闻通讯。可以通过Telegram加入我们。
如有合作推广GitHub仓库、Hugging Face页面、产品发布或网络研讨会等需求,请与我们联系。