2026-05-14 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Violin：打破語言障礙的開源視頻翻譯技能

Violin是一個完全開源的AI視頻翻譯工具，結合語音識別、大型語言模型翻譯和語音合成，使視頻內容跨越語言障礙。它提供網絡應用、命令行界面和代理技能，支持視頻內容問答和個性化語音選擇。使用Together API，利用Whisper、DeepSeek和Cartesia等模型，以MIT許可證發佈。

來源Together AI Blog

視頻已成為信息分享最流行的媒介之一，但網絡熱門視頻的語言分佈並不反映全球觀眾的多樣性。研究表明，YouTube前250個頻道中66%的視頻是英文，而第二大語言西班牙語僅佔15%，導致大量內容無法被非英語觀眾訪問。為了解決這一語言障礙，我們推出了Violin——一個完全開源的視頻翻譯工具，由Together API提供支持。Violin的流水線集成了最先進的語音識別、大語言模型翻譯和語音合成技術，能夠實現高質量的視頻翻譯。

Violin的工作流程分為三個簡單階段：首先，使用Together的Whisper V3大端點提取視頻音頻並轉錄為帶時間戳的文字，該模型提供高質量的多語言轉錄且速度優化。然後，利用最新的DeepSeek V4 Pro作為默認翻譯器對轉錄文本進行翻譯，用户還可以預定義翻譯規則以確保準確性和忠實度。最後，使用Cartesia的Sonic 3模型生成翻譯後的語音，用户可以用自然語言指定聲音特徵，如韓語、荷蘭語、意大利語和中文等。注意，我們不支持聲音克隆，而是使用與原説話者不同的聲音，默認以低音量疊加在原聲之上。

除了基本翻譯，Violin還內置了一個多模態聊天助手，可以回答關於視頻內容的問題。該助手由視覺語言模型驅動，例如Qwen3.5-397B-A17B，通過採樣最近的視頻幀和字幕上下文來實現。用户可以查詢視頻細節、要求總結或深入特定主題，所有操作都在同一界面完成。

Violin注重易用性，提供了三種交互方式：網頁應用——簡潔的前端，無需編碼，適合內容創作者；命令行工具——便於腳本和批處理；代理技能——可集成到常見代理框架中。整個代碼庫從GUI到後端模型都完全開源，採用寬鬆的MIT許可證，邀請社區改編和擴展。我們相信開放協作是使視頻內容真正語言無關的最快途徑。

要開始使用，請訪問GitHub倉庫或試用演示應用（發佈後短期託管）。上傳的視頻在演示應用中24小時後刪除。用户需自行承擔翻譯內容的版權合規責任。Violin僅提供翻譯工具，用户對翻譯內容全權負責。我們感謝Whisper、DeepSeek、Qwen和Cartesia等開源模型構建者的貢獻，以及Martijn Bartelds等人的反饋。