2026-05-14 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Violin：打破語言障礙的開源影片翻譯技能

Violin是一個完全開源的AI影片翻譯工具，結合語音識別、大型語言模型翻譯和語音合成，使影片內容跨越語言障礙。它提供網路應用、命令列介面和代理技能，支援影片內容問答和個性化語音選擇。使用Together API，利用Whisper、DeepSeek和Cartesia等模型，以MIT許可證釋出。

來源Together AI Blog

影片已成為資訊分享最流行的媒介之一，但網路熱門影片的語言分佈並不反映全球觀眾的多樣性。研究表明，YouTube前250個頻道中66%的影片是英文，而第二大語言西班牙語僅佔15%，導致大量內容無法被非英語觀眾訪問。為了解決這一語言障礙，我們推出了Violin——一個完全開源的影片翻譯工具，由Together API提供支援。Violin的流水線整合了最先進的語音識別、大語言模型翻譯和語音合成技術，能夠實現高質量的影片翻譯。

Violin的工作流程分為三個簡單階段：首先，使用Together的Whisper V3大端點提取影片音訊並轉錄為帶時間戳的文字，該模型提供高質量的多語言轉錄且速度最佳化。然後，利用最新的DeepSeek V4 Pro作為預設翻譯器對轉錄文本進行翻譯，使用者還可以預定義翻譯規則以確保準確性和忠實度。最後，使用Cartesia的Sonic 3模型生成翻譯後的語音，使用者可以用自然語言指定聲音特徵，如韓語、荷蘭語、義大利語和中文等。注意，我們不支援聲音克隆，而是使用與原說話者不同的聲音，預設以低音量疊加在原聲之上。

除了基本翻譯，Violin還內建了一個多模態聊天助手，可以回答關於影片內容的問題。該助手由視覺語言模型驅動，例如Qwen3.5-397B-A17B，透過取樣最近的影片幀和字幕上下文來實現。使用者可以查詢影片細節、要求總結或深入特定主題，所有操作都在同一介面完成。

Violin注重易用性，提供了三種互動方式：網頁應用——簡潔的前端，無需編碼，適合內容創作者；命令列工具——便於指令碼和批處理；代理技能——可整合到常見代理框架中。整個程式碼庫從GUI到後端模型都完全開源，採用寬鬆的MIT許可證，邀請社群改編和擴充套件。我們相信開放協作是使影片內容真正語言無關的最快途徑。

要開始使用，請訪問GitHub倉庫或試用演示應用（釋出後短期託管）。上傳的影片在演示應用中24小時後刪除。使用者需自行承擔翻譯內容的版權合規責任。Violin僅提供翻譯工具，使用者對翻譯內容全權負責。我們感謝Whisper、DeepSeek、Qwen和Cartesia等開源模型構建者的貢獻，以及Martijn Bartelds等人的反饋。