2026-05-20站内改写2 分钟阅读更新: 2026-06-12

阿里巴巴Qwen团队推出Qwen3.5-LiveTranslate-Flash：支持60种语言、延迟仅2.8秒的实时多模态翻译模型

阿里巴巴Qwen团队发布了Qwen3.5-LiveTranslate-Flash，这是一款实时多模态翻译模型，可同时处理音频和视频。该模型支持60种输入语言，并以2.8秒的延迟输出29种语言的语音。相比上一版本，新增了实时说话人声音克隆、通过唇形和屏幕文本增强视觉理解，以及动态关键词配置以处理领域特定术语。在FLEURS和CoVoST2基准测试中，该模型表现优于主要商业替代品。该模型通过阿里云百炼平台以API形式提供，使用WebSocket协议。

来源MarkTechPost作者: Asif Razzaq

同声传译一直是人工智能领域最具挑战性的问题之一。翻译模型需要在说话人尚未说完句子之前就开始输出，每增加一秒延迟都会破坏实时交流的体验。阿里巴巴的Qwen团队持续在这一方向取得突破，最新发布的Qwen3.5-LiveTranslate-Flash将延迟降低至2.8秒，并支持60种输入语言，输出29种语言的语音，相比前代Qwen3-LiveTranslate-Flash（支持18种输入语言，延迟约3秒）实现了显著提升。

延迟优化的核心在于新引入的“阅读单元”处理技术。模型不再等待完整句子结束才开始翻译，而是在一个语义片段积累足够信息后立即提交翻译结果，从而实现边听边译的连续流式输出。这一技术将延迟进一步压缩了约200毫秒。

除了音频，该模型首次将视觉信息作为一等输入。在嘈杂的会议室或展会上，音频信号往往失真，但模型通过同步分析唇形、手势、屏幕文字等视觉信息，填补音频的空白，显著提升翻译准确度。这一能力在真实部署中至关重要，因为音频质量难以保证。

语音克隆功能是本次升级的亮点。传统系统通常用合成语音替换原说话人，而Qwen3.5-LiveTranslate-Flash可在翻译过程中实时克隆说话人的音色特征，仅需一句话即可完成声学适配。听众会感觉是同一人用目标语言讲话，而非机器配音。

针对专业场景，模型引入了动态关键词配置功能。开发者可以在会话开始时注入品牌名、医学术语、法律词汇等术语表，避免常见误译。这一功能填补了通用翻译API在专业领域部署中的空白。

在权威的多语言语音翻译基准FLEURS和CoVoST2上，Qwen3.5-LiveTranslate-Flash均超越了主流商业竞品。FLEURS测试多种语言对在真实声学条件下的翻译质量，CoVoST2涵盖21个翻译方向，是评估多语言流水线性能的重要基准。

该模型以API形式通过阿里云百炼平台提供，使用WebSocket协议支持持久连接。开发者需先注册阿里云账号并获取DashScope API密钥，然后通过WebSocket发送会话配置，指定源语言和目标语言。支持连续传输16kHz、16位PCM单声道音频以及可选视频帧。模型文本输出支持全部60种语言，但语音输出仅限29种，目标语言不在列表中时需要备用TTS方案。整体而言，Qwen3.5-LiveTranslate-Flash在实时多语言翻译领域树立了新标杆。