2026-05-14 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Violin：打破语言障碍的开源视频翻译技能

Violin是一个完全开源的AI视频翻译工具，结合语音识别、大型语言模型翻译和语音合成，使视频内容跨越语言障碍。它提供网络应用、命令行界面和代理技能，支持视频内容问答和个性化语音选择。使用Together API，利用Whisper、DeepSeek和Cartesia等模型，以MIT许可证发布。

来源Together AI Blog

视频已成为信息分享最流行的媒介之一，但网络热门视频的语言分布并不反映全球观众的多样性。研究表明，YouTube前250个频道中66%的视频是英文，而第二大语言西班牙语仅占15%，导致大量内容无法被非英语观众访问。为了解决这一语言障碍，我们推出了Violin——一个完全开源的视频翻译工具，由Together API提供支持。Violin的流水线集成了最先进的语音识别、大语言模型翻译和语音合成技术，能够实现高质量的视频翻译。

Violin的工作流程分为三个简单阶段：首先，使用Together的Whisper V3大端点提取视频音频并转录为带时间戳的文字，该模型提供高质量的多语言转录且速度优化。然后，利用最新的DeepSeek V4 Pro作为默认翻译器对转录文本进行翻译，用户还可以预定义翻译规则以确保准确性和忠实度。最后，使用Cartesia的Sonic 3模型生成翻译后的语音，用户可以用自然语言指定声音特征，如韩语、荷兰语、意大利语和中文等。注意，我们不支持声音克隆，而是使用与原说话者不同的声音，默认以低音量叠加在原声之上。

除了基本翻译，Violin还内置了一个多模态聊天助手，可以回答关于视频内容的问题。该助手由视觉语言模型驱动，例如Qwen3.5-397B-A17B，通过采样最近的视频帧和字幕上下文来实现。用户可以查询视频细节、要求总结或深入特定主题，所有操作都在同一界面完成。

Violin注重易用性，提供了三种交互方式：网页应用——简洁的前端，无需编码，适合内容创作者；命令行工具——便于脚本和批处理；代理技能——可集成到常见代理框架中。整个代码库从GUI到后端模型都完全开源，采用宽松的MIT许可证，邀请社区改编和扩展。我们相信开放协作是使视频内容真正语言无关的最快途径。

要开始使用，请访问GitHub仓库或试用演示应用（发布后短期托管）。上传的视频在演示应用中24小时后删除。用户需自行承担翻译内容的版权合规责任。Violin仅提供翻译工具，用户对翻译内容全权负责。我们感谢Whisper、DeepSeek、Qwen和Cartesia等开源模型构建者的贡献，以及Martijn Bartelds等人的反馈。