阿里巴巴Qwen团队推出Qwen3.5-LiveTranslate-Flash:支持60种语言、延迟仅2.8秒的实时多模态翻译模型
阿里巴巴Qwen团队发布了Qwen3.5-LiveTranslate-Flash,这是一款实时多模态翻译模型,可同时处理音频和视频。该模型支持60种输入语言,并以2.8秒的延迟输出29种语言的语音。相比上一版本,新增了实时说话人声音克隆、通过唇形和屏幕文本增强视觉理解,以及动态关键词配置以处理领域特定术语。在FLEURS和CoVoST2基准测试中,该模型表现优于主要商业替代品。该模型通过阿里云百炼平台以API形式提供,使用WebSocket协议。
同声传译一直是人工智能领域最具挑战性的问题之一。翻译模型需要在说话人尚未说完句子之前就开始输出,每增加一秒延迟都会破坏实时交流的体验。阿里巴巴的Qwen团队持续在这一方向取得突破,最新发布的Qwen3.5-LiveTranslate-Flash将延迟降低至2.8秒,并支持60种输入语言,输出29种语言的语音,相比前代Qwen3-LiveTranslate-Flash(支持18种输入语言,延迟约3秒)实现了显著提升。
延迟优化的核心在于新引入的“阅读单元”处理技术。模型不再等待完整句子结束才开始翻译,而是在一个语义片段积累足够信息后立即提交翻译结果,从而实现边听边译的连续流式输出。这一技术将延迟进一步压缩了约200毫秒。
除了音频,该模型首次将视觉信息作为一等输入。在嘈杂的会议室或展会上,音频信号往往失真,但模型通过同步分析唇形、手势、屏幕文字等视觉信息,填补音频的空白,显著提升翻译准确度。这一能力在真实部署中至关重要,因为音频质量难以保证。
语音克隆功能是本次升级的亮点。传统系统通常用合成语音替换原说话人,而Qwen3.5-LiveTranslate-Flash可在翻译过程中实时克隆说话人的音色特征,仅需一句话即可完成声学适配。听众会感觉是同一人用目标语言讲话,而非机器配音。
针对专业场景,模型引入了动态关键词配置功能。开发者可以在会话开始时注入品牌名、医学术语、法律词汇等术语表,避免常见误译。这一功能填补了通用翻译API在专业领域部署中的空白。
在权威的多语言语音翻译基准FLEURS和CoVoST2上,Qwen3.5-LiveTranslate-Flash均超越了主流商业竞品。FLEURS测试多种语言对在真实声学条件下的翻译质量,CoVoST2涵盖21个翻译方向,是评估多语言流水线性能的重要基准。
该模型以API形式通过阿里云百炼平台提供,使用WebSocket协议支持持久连接。开发者需先注册阿里云账号并获取DashScope API密钥,然后通过WebSocket发送会话配置,指定源语言和目标语言。支持连续传输16kHz、16位PCM单声道音频以及可选视频帧。模型文本输出支持全部60种语言,但语音输出仅限29种,目标语言不在列表中时需要备用TTS方案。整体而言,Qwen3.5-LiveTranslate-Flash在实时多语言翻译领域树立了新标杆。