AI News HubLIVE
站内改写4 分钟阅读

Gradium发布stt-translate和s2s-translate:实时语音翻译模型,准确率和延迟均超越GPT Realtime Translate

Gradium推出了两款实时语音翻译模型:stt-translate(语音转文本)和s2s-translate(语音转语音),覆盖英语、法语、德语、西班牙语和葡萄牙语共20种语言对。通过将传统的三模型级联简化为两个阶段,模型在BLEU和MetricX指标上优于GPT Realtime Translate,平均延迟3.0秒,略逊于Gemini的2.9秒,但支持输出语音选择和克隆。

来源MarkTechPost作者: Asif Razzaq

Gradium公司今日发布了两款实时语音翻译模型:stt-translate(语音到文本)和s2s-translate(语音到语音)。这两个模型均支持五种语言,并且能够在浏览器中实时流式传输结果。

Gradium声称,与gpt-realtime-translate和gemini-3.5-live-translate相比,其模型在准确性和延迟之间取得了更好的平衡。此外,它还增加了输出语音控制功能,包括语音克隆,这是gpt-realtime-translate所不具备的。

简要概述

  • Gradium推出了两款实时语音翻译模型:stt-translate(语音→文本)和s2s-translate(语音→语音)。
  • 模型覆盖五种语言(英语、法语、德语、西班牙语、葡萄牙语)和20个语言对,将通常的三模型级联精简为两个。
  • 准确性方面,在BLEU和MetricX指标上领先gemini-3.5-live-translate,在BLEU上超越gpt-realtime-translate(MetricX相当)。
  • 平均延迟3.0秒,优于gpt-realtime-translate(3.6秒),略逊于gemini-3.5-live-translate(2.9秒)。
  • 与gpt-realtime-translate不同,用户可以选择输出语音或克隆自己的声音,全部通过一个双工WebSocket连接完成。

stt-translate

stt-translate将一种语言的语音转换为另一种语言的文本。它支持英语、法语、德语、西班牙语和葡萄牙语。源语言和目标语言之间的任意组合均可实现,总共覆盖20个语言对,且支持双向翻译。

关键设计决策是将两步合并为一步。转录和翻译在语音模型内部单次完成,没有中间转录文本的等待,也没有系统间的交接。

据Gradium介绍,该方法借鉴了Hibiki-Zero框架。模型通过强化学习联合优化低延迟和高准确性,减少了流水线中的组件数量。

s2s-translate

s2s-translate将一种语言的音频端到端地转换为另一种语言的音频。它建立在stt-translate之上,并与Gradium的TTS模型配对,作为一个服务提供。

用户通过WebSocket流式传输音频,模型同时返回合成的输出音频和翻译后的转录文本。这消除了集成工作:用户无需自行连接STT和TTS系统,也无需管理两个连接。服务器运行整个流水线并将结果流回。

输入音频为24 kHz、16位有符号单声道PCM格式。输出音频为48 kHz、16位有符号单声道PCM格式。同时支持WAV、Opus、µ-law和A-law格式。

质量评估:BLEU与MetricX

翻译质量并非单一指标,Gradium报告了两个互补的度量标准:

BLEU(双语评估替代指标)是长期以来的机器翻译标准。它衡量模型输出与人工参考翻译之间的n-gram重叠程度,分数范围0-100,越高越好。BLEU快速、可重复、跨系统可比,但其局限在于奖励表面词语匹配,如果正确翻译使用了不同措辞,可能会受到惩罚。

MetricX是Google开发的基于学习的神经质量指标,它预测人类对翻译的评价,以误差分数表示,越低越好,比BLEU更接近人类判断。

两个指标捕捉不同的失败类型:BLEU检查词汇忠实度,MetricX检查语义充分性。

基准测试

Gradium在专有的对话语音数据集上进行基准测试,数据反映工作、旅行、天气等日常主题,而非脚本文本。

与gemini-3.5-live-translate相比,Gradium在BLEU和MetricX上均领先。与gpt-realtime-translate相比,Gradium在BLEU上领先,MetricX相当。

| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均延迟(所有语言对) | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU(越高越好) | 领先两者 | 低于Gradium | 低于Gradium | | MetricX(越低越好) | 与GPT相当;领先Gemini | 与Gradium相当 | 高于Gradium | | 选择输出语音 | 是(目录) | 否 | 未说明 | | 克隆自己的声音 | 是 | 否 | 未说明 | | 语言 | 5种语言,20个语言对 | 未说明 | 未说明 |

准确性(BLEU和MetricX)基于stt-translate的翻译;延迟针对完整s2s-translate流水线。应将其视为权衡而非全胜:Gemini速度略快,Gradium更准确并增加了语音控制。

为何两个模型胜过三个

标准的语音到语音堆栈使用三个模型:语音转文本、文本到文本翻译、文本到语音。每个阶段都是一次独立的推理调用,增加处理时间和交接。

Gradium使用两个模型。stt-translate在单次处理中完成转录和翻译,专门的文本到文本阶段完全消失。这从关键路径中移除了一个完整模型及其延迟和交接。端到端路径比同等质量的三模型级联更短。

数据支持这一设计:s2s-translate在所有语言对上的平均延迟为3.0秒,优于gpt-realtime-translate的3.6秒,接近gemini-3.5-live-translate的2.9秒。

用例示例

  • 实时配音和本地化:克隆一次演讲者的声音。将法语主题演讲翻译成西班牙语,但听起来仍像原演讲者。
  • 多语言语音助手:通过s2s-translate路由支持电话。英语客服听到德语客户的英语翻译,回复流式返回德语。
  • 实时会议:通过WebSocket输入麦克风音频。每位参会者收到自己语言的翻译语音和转录文本。
  • 可访问性和字幕:仅需要文本时使用stt-translate,呈现实时翻译字幕而无需生成音频。

几行代码实现翻译

Python SDK通过语音到语音端点流式传输音频,并返回翻译后的音频和转录文本。

import asyncio
import numpy as np
from gradium import client as gradium_client

grc = gradium_client.GradiumClient() # 从环境变量读取GRADIUM_API_KEY

setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000", # 24 kHz, 16位有符号单声道输入
    "output_format": "pcm_48000", # 48 kHz, 16位有符号单声道输出
    "voice_id": "cLONiZ4hQ8VpQ4Sz", # 必须是目标语言的声音
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en",
}

# 原始24 kHz, 16位有符号单声道PCM字节(来自文件、缓冲区或麦克风)
with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main() -> np.ndarray:
    audio_out: list[bytes] = []
    async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send_loop():
            for i in range(0, len(pcm), 1920): # 1920字节 = 24 kHz下40毫秒
                await s2s.send_audio(pcm[i : i + 1920])
            await s2s.send_eos() # 输入结束信号

        async def recv_loop():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"]) # 翻译后的语音(字节)
                elif msg["type"] == "text":
                    print(msg["text"], end=" ", flush=True) # 翻译后的文本
                elif msg["type"] == "end_of_stream":
                    break

        async with asyncio.TaskGroup() as tg:
            tg.create_task(send_loop())
            tg.create_task(recv_loop())

    return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz单声道PCM

translated_pcm = asyncio.run(main())

SDK提供了三种驱动S2S的方式:s2s_realtime用于实时源,s2s_stream用于有限可迭代对象,s2s用于缓冲文件。三者均连接至wss://api.gradium.ai/api/speech/s2s。

优势与不足

优势:

  • 单次stt-translate从延迟路径中移除了一个模型。
  • 在BLEU和MetricX上领先gemini-3.5-live-translate。
  • 输出语音选择和克隆,gpt-realtime-translate缺乏此功能。
  • 单一双工WebSocket替代了手动搭建的STT+TTS流水线。

不足:

  • 发布时仅支持五种语言,20个语言对仅限于该集合内。
  • gemini-3.5-live-translate的延迟略低,为2.9秒。
  • MetricX与gpt-realtime-translate相当,而非领先。
  • 基准测试使用专有数据集,外部可复现性有限。

交互式演示

用户可以在gradium.ai/translate测试实时翻译,API文档中有集成细节。此外,欢迎关注Twitter,加入15万+的ML子论坛,订阅新闻通讯。可以通过Telegram加入我们。

如有合作推广GitHub仓库、Hugging Face页面、产品发布或网络研讨会等需求,请与我们联系。