2026-05-14 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

Violin：言語の壁を破るオープンソースの動画翻訳スキル

Violinは、音声認識、大規模言語モデル翻訳、音声合成を組み合わせた完全オープンソースのAI動画翻訳ツールです。ウェブアプリ、CLI、エージェントスキルを提供し、動画コンテンツに関する質問応答やパーソナライズされた音声選択が可能です。Together APIを基盤とし、Whisper、DeepSeek、Cartesiaなどのモデルを利用し、MITライセンスで公開されています。

ソースTogether AI Blog

動画は情報共有の最も人気のある媒体の一つとなっていますが、インターネット上の人気動画コンテンツの言語分布は、必ずしもグローバルな視聴者の多様性を反映していません。例えば、ある研究によると、YouTubeのトップ250チャンネルの動画の66%が英語であり、2番目に多いスペイン語はわずか15%を占めるに過ぎず、世界中の視聴者が多くのコンテンツにアクセスできない状態です。このギャップは、スケーラブルな動画翻訳ソリューションの必要性を浮き彫りにしています。

本日、私たちはTogether APIを搭載した完全オープンソースの動画翻訳ツールViolinを紹介します。Violinのパイプラインは、最先端の音声認識、大規模言語モデル、音声合成を統合し、高品質な動画翻訳を実現します。

Violinは3つの簡単な段階で動作します。まず、TogetherのWhisper V3ラージエンドポイントを使用して、動画の音声を抽出し、タイムスタンプ付きのテキストに書き起こします。次に、最新のDeepSeek V4 Proをデフォルトの翻訳器として使用し、書き起こしテキストを翻訳します。ユーザーは翻訳ルールを事前に定義して、正確性を維持することもできます。最後に、CartesiaのSonic 3モデルが翻訳音声を生成し、ユーザーは自然言語で希望する音声特性（韓国語、オランダ語、イタリア語、中国語など）を指定できます。音声クローンは許可されておらず、元の話者とは異なる声を使用し、デフォルトでは元の音声に低音量で重ねられます。

さらに、動画チャットモジュールは、視覚言語モデル（Qwen3.5-397B-A17Bなど）を使用して、動画の音声と映像の両方を理解し、質問に答えます。最近のフレームと字幕コンテキストをサンプリングしてモデルに送信することで、コンテキストに基づいた適切な応答を返します。

Violinは使いやすさを重視し、ウェブアプリ（コード不要）、CLIツール（スクリプトやバッチ処理向け）、エージェントスキル（エージェントフレームワークに統合可能）の3つのインターフェースを提供します。GUIからバックエンドモデル、エージェントスキルまで全てがオープンソースで、MITライセンスの下で公開されています。

詳細はGitHubリポジトリを参照してください。デモアプリではアップロードされた動画は24時間後に削除され、ユーザーは翻訳コンテンツの著作権コンプライアンスなどの責任を負います。