AI News HubLIVE
站内改写2 分で読了

Alibaba Qwenチーム、60言語対応・遅延2.8秒のリアルタイム多モーダル翻訳モデル「Qwen3.5-LiveTranslate-Flash」を発表

AlibabaのQwenチームは、音声と動画を同時処理するリアルタイム多モーダル翻訳モデルQwen3.5-LiveTranslate-Flashをリリースした。60の入力言語に対応し、2.8秒の遅延で29言語の音声出力を提供する。前バージョンからの主な追加機能は、リアルタイム話者音声クローン、唇の動きや画面テキストによる視覚強化理解、ドメイン固有用語の動的キーワード設定。FLEURSとCoVoST2ベンチマークで、主要な商用代替品を上回る性能を示した。API限定モデルとしてAlibaba Cloud Model StudioからWebSocketベースのプロトコルで利用可能。

ソースMarkTechPost著者: Asif Razzaq

同時通訳は応用AIの中でも難しい問題の一つです。話者が文を終える前にモデルが翻訳を開始する必要があり、1秒の遅延がリアルタイムコミュニケーションの幻想を壊します。AlibabaのQwenチームは各リリースでこの課題に取り組んできました。最新モデルQwen3.5-LiveTranslate-Flashは遅延を2.8秒に低減し、入力言語を60カ国語に拡大しました。前世代のQwen3-LiveTranslate-Flashは18の入力言語、約3秒の遅延でしたが、新モデルは2.8秒に短縮し、入力言語を60に拡大、さらに29カ国語の音声出力を追加しました。これは入力側で3倍以上の拡大です。多言語製品を構築する開発者にとって、ほとんどのグローバルエンタープライズシナリオで言語ごとのモデル切り替えの必要性が減少します。

遅延改善の鍵は「リーディングユニット」処理技術です。モデルは完全な文を待たずに、セグメントに十分な意味が蓄積された時点で翻訳を確定し、話者が話し続けている間も継続的に出力をストリームします。これは意味単位予測と同じ基本ロジックですが、よりタイトな実装により200ミリ秒を削減しています。

従来の翻訳システムは音声のみを入力としますが、それはクリーンなスタジオ環境では機能します。しかし、混雑した会議室や騒がしい展示場、声が重なる場所では破綻します。Qwen3.5-LiveTranslate-Flashは視覚情報を音声と並行して分析します——画面上のテキスト、物理的に示された物体、唇の動き、ジェスチャーなどです。単語が音声的に曖昧だったり音声が劣化した場合、視覚コンテキストがギャップを埋め、翻訳の精度を高めます。

音声クローンはこのリリースの最も際立った点です。標準的な翻訳システムは話者の声を汎用合成音声に置き換えますが、Qwen3.5-LiveTranslate-Flashは翻訳自体の中で元の話者の声の特徴をクローンします。一言話すだけで音響適応が行われます。受信側のリスナーには、翻訳出力がロボット的な代用品ではなく、同じ人物が対象言語を話しているように聞こえます。

専門用語の問題に対処するため、モデルはランタイムで動的なキーワード設定をサポートします。ブランド名、医薬品名、法律用語、技術語彙の用語集を注入でき、それらの用語をより信頼性高く扱います。この機能はほとんどの汎用翻訳APIでは利用できず、エンタープライズ向けのギャップを埋めます。

FLEURSとCoVoST2のベンチマークでは、Qwen3.5-LiveTranslate-Flashは主要な商用代替品を上回りました。このモデルはAlibaba Cloud Model StudioからAPI限定で提供され、WebSocketプロトコルを使用します。開発者はAlibaba Cloudアカウントを作成し、DashScope APIキーを取得後、WebSocket接続を確立して会話設定(ソース言語とターゲット言語)を送信し、16kHz、16ビットPCMモノラルの音声チャンクとオプションのビデオフレームをストリームします。セッション設定にキーワードマッピングを追加することで、誤訳を減らせます。テキスト出力は全60言語で可能ですが、音声出力は29言語のみです。全体として、Qwen3.5-LiveTranslate-Flashはリアルタイム多言語翻訳の新たな基準を打ち立てました。