AI News HubLIVE
サイト内リライト5 分で読了

Gradium、stt-translateとs2s-translateを発表:GPT Realtime Translateを精度とレイテンシで上回るリアルタイム音声翻訳モデル

Gradiumは、音声からテキストへのstt-translateと音声から音声へのs2s-translateという2つのリアルタイム音声翻訳モデルをリリースした。対象言語は英語、フランス語、ドイツ語、スペイン語、ポルトガル語の5言語で、20の言語ペアをカバー。従来の3モデルカスケードを2段階に圧縮し、BLEUおよびMetricX指標でGPT Realtime Translateを凌ぎ、平均レイテンシは3.0秒(Geminiの2.9秒に僅かに及ばず)でありながら、出力音声の選択やクローンも可能。

ソースMarkTechPost著者: Asif Razzaq

Gradium社は本日、2つのリアルタイム音声翻訳モデル、stt-translate(音声→テキスト)とs2s-translate(音声→音声)をリリースしました。これらのモデルは5言語をサポートし、ブラウザ上でリアルタイムにストリーム配信を行います。

Gradiumは、gpt-realtime-translateやgemini-3.5-live-translateと比較して、より優れた精度とレイテンシのトレードオフを実現していると主張しています。さらに、gpt-realtime-translateにはない出力音声制御(クローン機能を含む)を追加しています。

要約

  • Gradiumは2つのリアルタイム音声翻訳モデル、stt-translate(音声→テキスト)とs2s-translate(音声→音声)を発表。
  • 英語、フランス語、ドイツ語、スペイン語、ポルトガル語の5言語、20の言語ペアをカバーし、通常の3モデルカスケードを2つに削減。
  • 精度では、BLEUとMetricXでgemini-3.5-live-translateをリードし、BLEUでgpt-realtime-translateを上回る(MetricXは同等)。
  • 平均レイテンシ3.0秒で、gpt-realtime-translate(3.6秒)を上回り、gemini-3.5-live-translate(2.9秒)に僅かに及ばない。
  • 出力音声の選択やボイスクローンが可能で、すべて単一の双方向WebSocketで実現。

stt-translate

stt-translateは、ある言語の音声を受け取り、別の言語のテキストを返します。サポート言語は英語、フランス語、ドイツ語、スペイン語、ポルトガル語。ソースからターゲットへの任意の組み合わせが可能で、全20言語ペアを双方向にカバーします。

重要な設計上の選択は、2つのステップを1つに統合したことです。文字起こしと翻訳は、音声モデル内で単一パスで実行されます。中間の文字起こしテキストを待つ必要はなく、システム間の引き継ぎもありません。

Gradiumによれば、このアプローチはHibiki-Zeroフレームワークに基づいています。モデルは強化学習を通じて低レイテンシと高精度を共同で最適化し、パイプラインの構成要素を削減します。

s2s-translate

s2s-translateは、ある言語の音声を別の言語の音声にエンドツーエンドで変換します。これはstt-translateをベースに、GradiumのTTSモデルと組み合わせて1つのサービスとして提供されます。

ユーザーはWebSocketを介して音声をストリーム送信し、モデルは合成された出力音声と翻訳テキストの両方をリアルタイムで返します。これにより、STTとTTSを自分で接続したり、2つの接続を管理する手間が省けます。サーバーがパイプライン全体を実行し、結果をストリームバックします。

入力音声は24kHz、16ビット符号付きモノラルPCM形式。出力音声は48kHz、16ビット符号付きモノラルPCM形式です。WAV、Opus、µ-law、A-lawもサポートされています。

品質評価:BLEUとMetricX

翻訳品質は単一の数値では測れないため、Gradiumは2つの相補的な指標を報告しています。

BLEUは長年にわたる機械翻訳の標準指標で、モデル出力と人間による参照翻訳とのn-gram一致度を測定します。スコアは0〜100で、高いほど良いとされます。BLEUは高速で再現性があり、システム間の比較が可能ですが、表層的な単語一致を重視するため、異なる表現で正しい翻訳をした場合にペナルティが生じることがあります。

MetricXはGoogleが開発した学習ベースのニューラル品質指標で、人間が翻訳を評価する方法を予測します。エラースコア(低いほど良い)で表され、BLEUよりも人間の判断に近いとされています。

これら2つの指標は異なる失敗を捉えます:BLEUは語彙の忠実度を、MetricXは意味的妥当性をチェックします。

ベンチマーク

Gradiumは、仕事、旅行、天気などの日常的なトピックを反映した会話音声の独自データセットでベンチマークを実施しています。

gemini-3.5-live-translateと比較して、GradiumはBLEUとMetricXの両方でリードしています。gpt-realtime-translateと比較すると、BLEUではGradiumがリードし、MetricXでは同等です。

| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate | |------|---------|------------------------|--------------------------| | 平均レイテンシ(全ペア) | 3.0秒 | 3.6秒 | 2.9秒 | | BLEU(高いほど良い) | 両者をリード | Gradium未満 | Gradium未満 | | MetricX(エラー低いほど良い) | GPTと同等;Geminiをリード | Gradiumと同等 | Gradiumよりエラー高い | | 出力音声の選択 | 可能(カタログ) | 不可 | 未公表 | | ボイスクローン | 可能 | 不可 | 未公表 | | 言語 | 5言語、20ペア | 未公表 | 未公表 |

精度(BLEUとMetricX)はstt-translateの翻訳に対するもの、レイテンシは完全なs2s-translateパイプラインに対するものです。これは一方的な勝利ではなくトレードオフとして捉えるべきです:Geminiはわずかに高速ですが、Gradiumはより高精度で音声制御を追加しています。

なぜ2モデルが3モデルに勝るのか

標準的な音声から音声へのスタックは、音声認識、テキスト翻訳、音声合成の3つのモデルを使用します。各ステージは独立した推論呼び出しであり、処理時間と引き継ぎが追加されます。

Gradiumは2つのモデルを使用します。stt-translateは文字起こしと翻訳を単一パスで実行し、専用のテキスト翻訳ステージを完全に排除します。これにより、クリティカルパスから1つのモデルとそのレイテンシ、引き継ぎが削除されます。同等の品質で、3モデルカスケードよりもエンドツーエンドのパスが短くなります。

データがこの設計を裏付けています:s2s-translateの全言語ペアの平均レイテンシは3.0秒で、gpt-realtime-translateの3.6秒を上回り、gemini-3.5-live-translateの2.9秒に近づいています。

ユースケース例

  • ライブ吹き替えとローカリゼーション:プレゼンターの声を一度クローンします。フランス語の基調講演をスペイン語に翻訳しても、元の話者のように聞こえます。
  • 多言語音声エージェント:サポートコールをs2s-translate経由でルーティングします。英語のエージェントはドイツ語の話者を英語で聞き、応答はドイツ語でストリームバックされます。
  • リアルタイム会議:マイク音声をWebSocketで送信します。各参加者は自分の言語に翻訳された音声とテキストを受け取ります。
  • アクセシビリティとキャプション:テキストのみが必要な場合はstt-translateのみを使用。音声を生成せずにライブ翻訳キャプションを表示します。

数行のコードで翻訳

Python SDKは音声から音声へのエンドポイントを介して音声をストリームし、翻訳された音声とテキストを返します。

import asyncio
import numpy as np
from gradium import client as gradium_client

grc = gradium_client.GradiumClient() # 環境変数GRADIUM_API_KEYを読み取り

setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000", # 24kHz, 16ビット符号付きモノラル入力
    "output_format": "pcm_48000", # 48kHz, 16ビット符号付きモノラル出力
    "voice_id": "cLONiZ4hQ8VpQ4Sz", # ターゲット言語の音声である必要あり
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en",
}

# 生の24kHz, 16ビットモノラルPCMバイト(ファイル、バッファ、マイクから)
with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main() -> np.ndarray:
    audio_out: list[bytes] = []
    async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send_loop():
            for i in range(0, len(pcm), 1920): # 1920バイト = 24kHzで40ms
                await s2s.send_audio(pcm[i : i + 1920])
            await s2s.send_eos() # 入力終了信号

        async def recv_loop():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"]) # 翻訳音声(バイト)
                elif msg["type"] == "text":
                    print(msg["text"], end=" ", flush=True) # 翻訳テキスト
                elif msg["type"] == "end_of_stream":
                    break

        async with asyncio.TaskGroup() as tg:
            tg.create_task(send_loop())
            tg.create_task(recv_loop())

    return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48kHzモノラルPCM

translated_pcm = asyncio.run(main())

SDKはS2Sを駆動する3つの方法を提供します:s2s_realtimeはリアルタイムソース用、s2s_streamは有限イテラブル用、s2sはバッファファイル用です。すべてwss://api.gradium.ai/api/speech/s2sに接続します。

強みと弱み

強み:

  • 単一パスのstt-translateにより、レイテンシパスから1モデルを削除。
  • BLEUとMetricXでgemini-3.5-live-translateをリード。
  • 出力音声の選択とクローンが可能(gpt-realtime-translateにはない)。
  • 1つの双方向WebSocketが手動のSTT+TTSパイプラインを置き換え。

弱み:

  • リリース時点で5言語のみ、20ペアはそのセット内に限定。
  • gemini-3.5-live-translateはわずかに低レイテンシ(2.9秒)。
  • MetricXはgpt-realtime-translateと同等であり、リードしているわけではない。
  • ベンチマークは独自データセットを使用しており、外部での再現性が限られる。

インタラクティブデモ

リアルタイム翻訳はgradium.ai/translateでブラウザ上でテスト可能。統合の詳細はAPIドキュメントを参照。また、Twitterでフォローしたり、15万人以上のMLサブレディットに参加、ニュースレターを購読してください。Telegramでも参加可能です。

GitHubリポジトリ、Hugging Faceページ、製品リリース、ウェビナーなどのプロモーションについて提携をご希望の場合は、お問い合わせください。