AI News HubLIVE
站内改写2 分で読了

IWSLT 2026同時音声翻訳タスクにおけるMLLP-VRAIN UPVシステム

本論文では、MLLP-VRAIN研究グループによるIWSLT 2026同時音声翻訳トラックへの参加について述べる。システムはParakeetとQwen 3.5モデルを利用し、適応型ブラックボックス戦略によるカスケード型ソリューションを採用。品質とレイテンシのトレードオフを改善するため戦略の緩和も検討。すべての言語方向に参加し、En→De、It、Zh方向ではASR単語ブーストとオフライン事前翻訳サンプルのRAG機構を組み合わせた新たなコンテキストトラックに参加。MCIF En→Deテストセットで+5.82 XCOMET-XLの品質向上、コンテキスト処理でさらに+1.03の改善。

ソースarXiv Computational Linguistics著者: Jorge Iranzo-S\'anchez, Gerard Mas-Moll\`a, Adri\`a Gim\'enez, Jorge Civera, Albert Sanchis, Alfons Juan

MLLP-VRAIN UPV研究グループは、IWSLT 2026同時音声翻訳(SimulST)共有タスクに参加したシステムを説明する論文を発表しました。本論文は2026年6月15日にarXivに提出され、著者はJorge Iranzo-Sánchez、Gerard Mas-Mollà、Adrià Giménez、Jorge Civera、Albert Sanchis、Alfons Juanです。チームは最近リリースされたParakeetとQwen 3.5モデルを活用し、カスケード型同時翻訳システムを構築しました。このシステムでは、まずParakeetで音声認識を行い、その結果をQwen 3.5モデルで翻訳します。長尺音声入力を処理するため、適応型ブラックボックス戦略を採用し、品質とレイテンシのトレードオフを改善するために戦略の緩和も検討しています。昨年と比較して、今年はすべての言語方向の翻訳タスクに参加し、対象範囲を拡大しました(英語からドイツ語、イタリア語、中国語など)。

英語からドイツ語、イタリア語、中国語への翻訳方向では、今年新設されたコンテキストトラックに参加しました。このトラックでは、ASR単語ブースト(word-boosting)と、オフラインで事前翻訳された例文を利用したRAG(検索拡張生成)メカニズムを組み合わせています。ASR単語ブーストは専門用語の認識精度を高め、RAGメカニズムは事前翻訳例をモデルに提供することで、生成結果の一貫性と専門性を向上させます。例えば、医療や法律の分野では、専門用語や定型表現の翻訳精度が大幅に向上しました。

性能評価では、MCIF英語-ドイツ語テストセットにおいて、昨年のシステムと比較してXCOMET-XLスコアで5.82ポイントの大幅な品質向上を達成しました。さらに、コンテキストトラック処理により1.03ポイントの追加改善が見られました。論文ではまた、システムの詳細なレイテンシ分析も提供しており、リアルタイム翻訳シナリオにおける実際の性能を示しています。分析によれば、適応型戦略の緩和により、高い翻訳品質を維持しつつ、レイテンシを許容範囲内に抑えることが可能です。

本研究は、ParakeetとQwen 3.5モデルの同時翻訳における有効性を実証するとともに、適応型戦略とコンテキスト強調技術が翻訳品質の向上とレイテンシ低減に寄与する可能性を示しています。将来のリアルタイム音声翻訳システムの開発に重要な知見を提供するものです。チームは今後の研究で戦略をさらに最適化し、より多くの言語対や分野への応用を探る予定です。