2026-06-25 04:00 UTC+8站内改写4 分钟阅读更新: 2026-06-25 04:15 UTC+8

Gradium发布stt-translate和s2s-translate：实时语音翻译模型，准确率和延迟均超越GPT Realtime Translate

Gradium推出了两款实时语音翻译模型：stt-translate（语音转文本）和s2s-translate（语音转语音），覆盖英语、法语、德语、西班牙语和葡萄牙语共20种语言对。通过将传统的三模型级联简化为两个阶段，模型在BLEU和MetricX指标上优于GPT Realtime Translate，平均延迟3.0秒，略逊于Gemini的2.9秒，但支持输出语音选择和克隆。

来源MarkTechPost作者: Asif Razzaq

Gradium公司今日发布了两款实时语音翻译模型：stt-translate（语音到文本）和s2s-translate（语音到语音）。这两个模型均支持五种语言，并且能够在浏览器中实时流式传输结果。

Gradium声称，与gpt-realtime-translate和gemini-3.5-live-translate相比，其模型在准确性和延迟之间取得了更好的平衡。此外，它还增加了输出语音控制功能，包括语音克隆，这是gpt-realtime-translate所不具备的。

简要概述

Gradium推出了两款实时语音翻译模型：stt-translate（语音→文本）和s2s-translate（语音→语音）。
模型覆盖五种语言（英语、法语、德语、西班牙语、葡萄牙语）和20个语言对，将通常的三模型级联精简为两个。
准确性方面，在BLEU和MetricX指标上领先gemini-3.5-live-translate，在BLEU上超越gpt-realtime-translate（MetricX相当）。
平均延迟3.0秒，优于gpt-realtime-translate（3.6秒），略逊于gemini-3.5-live-translate（2.9秒）。
与gpt-realtime-translate不同，用户可以选择输出语音或克隆自己的声音，全部通过一个双工WebSocket连接完成。

stt-translate

stt-translate将一种语言的语音转换为另一种语言的文本。它支持英语、法语、德语、西班牙语和葡萄牙语。源语言和目标语言之间的任意组合均可实现，总共覆盖20个语言对，且支持双向翻译。

关键设计决策是将两步合并为一步。转录和翻译在语音模型内部单次完成，没有中间转录文本的等待，也没有系统间的交接。

据Gradium介绍，该方法借鉴了Hibiki-Zero框架。模型通过强化学习联合优化低延迟和高准确性，减少了流水线中的组件数量。

s2s-translate

s2s-translate将一种语言的音频端到端地转换为另一种语言的音频。它建立在stt-translate之上，并与Gradium的TTS模型配对，作为一个服务提供。

用户通过WebSocket流式传输音频，模型同时返回合成的输出音频和翻译后的转录文本。这消除了集成工作：用户无需自行连接STT和TTS系统，也无需管理两个连接。服务器运行整个流水线并将结果流回。

输入音频为24 kHz、16位有符号单声道PCM格式。输出音频为48 kHz、16位有符号单声道PCM格式。同时支持WAV、Opus、µ-law和A-law格式。

质量评估：BLEU与MetricX

翻译质量并非单一指标，Gradium报告了两个互补的度量标准：

BLEU（双语评估替代指标）是长期以来的机器翻译标准。它衡量模型输出与人工参考翻译之间的n-gram重叠程度，分数范围0-100，越高越好。BLEU快速、可重复、跨系统可比，但其局限在于奖励表面词语匹配，如果正确翻译使用了不同措辞，可能会受到惩罚。

MetricX是Google开发的基于学习的神经质量指标，它预测人类对翻译的评价，以误差分数表示，越低越好，比BLEU更接近人类判断。

两个指标捕捉不同的失败类型：BLEU检查词汇忠实度，MetricX检查语义充分性。

基准测试

Gradium在专有的对话语音数据集上进行基准测试，数据反映工作、旅行、天气等日常主题，而非脚本文本。

与gemini-3.5-live-translate相比，Gradium在BLEU和MetricX上均领先。与gpt-realtime-translate相比，Gradium在BLEU上领先，MetricX相当。

| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均延迟（所有语言对） | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU（越高越好） | 领先两者 | 低于Gradium | 低于Gradium | | MetricX（越低越好） | 与GPT相当；领先Gemini | 与Gradium相当 | 高于Gradium | | 选择输出语音 | 是（目录） | 否 | 未说明 | | 克隆自己的声音 | 是 | 否 | 未说明 | | 语言 | 5种语言，20个语言对 | 未说明 | 未说明 |

准确性（BLEU和MetricX）基于stt-translate的翻译；延迟针对完整s2s-translate流水线。应将其视为权衡而非全胜：Gemini速度略快，Gradium更准确并增加了语音控制。

为何两个模型胜过三个

标准的语音到语音堆栈使用三个模型：语音转文本、文本到文本翻译、文本到语音。每个阶段都是一次独立的推理调用，增加处理时间和交接。

Gradium使用两个模型。stt-translate在单次处理中完成转录和翻译，专门的文本到文本阶段完全消失。这从关键路径中移除了一个完整模型及其延迟和交接。端到端路径比同等质量的三模型级联更短。

数据支持这一设计：s2s-translate在所有语言对上的平均延迟为3.0秒，优于gpt-realtime-translate的3.6秒，接近gemini-3.5-live-translate的2.9秒。

用例示例

实时配音和本地化：克隆一次演讲者的声音。将法语主题演讲翻译成西班牙语，但听起来仍像原演讲者。
多语言语音助手：通过s2s-translate路由支持电话。英语客服听到德语客户的英语翻译，回复流式返回德语。
实时会议：通过WebSocket输入麦克风音频。每位参会者收到自己语言的翻译语音和转录文本。
可访问性和字幕：仅需要文本时使用stt-translate，呈现实时翻译字幕而无需生成音频。

几行代码实现翻译

Python SDK通过语音到语音端点流式传输音频，并返回翻译后的音频和转录文本。

import asyncio
import numpy as np
from gradium import client as gradium_client

grc = gradium_client.GradiumClient() # 从环境变量读取GRADIUM_API_KEY

setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000", # 24 kHz, 16位有符号单声道输入
    "output_format": "pcm_48000", # 48 kHz, 16位有符号单声道输出
    "voice_id": "cLONiZ4hQ8VpQ4Sz", # 必须是目标语言的声音
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en",
}

# 原始24 kHz, 16位有符号单声道PCM字节（来自文件、缓冲区或麦克风）
with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main() -> np.ndarray:
    audio_out: list[bytes] = []
    async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send_loop():
            for i in range(0, len(pcm), 1920): # 1920字节 = 24 kHz下40毫秒
                await s2s.send_audio(pcm[i : i + 1920])
            await s2s.send_eos() # 输入结束信号

        async def recv_loop():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"]) # 翻译后的语音（字节）
                elif msg["type"] == "text":
                    print(msg["text"], end=" ", flush=True) # 翻译后的文本
                elif msg["type"] == "end_of_stream":
                    break

        async with asyncio.TaskGroup() as tg:
            tg.create_task(send_loop())
            tg.create_task(recv_loop())

    return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz单声道PCM

translated_pcm = asyncio.run(main())

SDK提供了三种驱动S2S的方式：s2s_realtime用于实时源，s2s_stream用于有限可迭代对象，s2s用于缓冲文件。三者均连接至wss://api.gradium.ai/api/speech/s2s。

优势与不足

优势：

单次stt-translate从延迟路径中移除了一个模型。
在BLEU和MetricX上领先gemini-3.5-live-translate。
输出语音选择和克隆，gpt-realtime-translate缺乏此功能。
单一双工WebSocket替代了手动搭建的STT+TTS流水线。

不足：

发布时仅支持五种语言，20个语言对仅限于该集合内。
gemini-3.5-live-translate的延迟略低，为2.9秒。
MetricX与gpt-realtime-translate相当，而非领先。
基准测试使用专有数据集，外部可复现性有限。

交互式演示

用户可以在gradium.ai/translate测试实时翻译，API文档中有集成细节。此外，欢迎关注Twitter，加入15万+的ML子论坛，订阅新闻通讯。可以通过Telegram加入我们。

如有合作推广GitHub仓库、Hugging Face页面、产品发布或网络研讨会等需求，请与我们联系。