阿里巴巴Qwen團隊推出Qwen3.5-LiveTranslate-Flash:支援60種語言、延遲僅2.8秒的即時多模態翻譯模型
阿里巴巴Qwen團隊釋出了Qwen3.5-LiveTranslate-Flash,這是一款即時多模態翻譯模型,可同時處理音訊和影片。該模型支援60種輸入語言,並以2.8秒的延遲輸出29種語言的語音。相比上一版本,新增了即時說話人聲音克隆、透過唇形和螢幕文本增強視覺理解,以及動態關鍵詞配置以處理領域特定術語。在FLEURS和CoVoST2基準測試中,該模型表現優於主要商業替代品。該模型透過阿里雲百鍊平臺以API形式提供,使用WebSocket協議。
同聲傳譯一直是人工智慧領域最具挑戰性的問題之一。翻譯模型需要在說話人尚未說完句子之前就開始輸出,每增加一秒延遲都會破壞即時交流的體驗。阿里巴巴的Qwen團隊持續在這一方向取得突破,最新發布的Qwen3.5-LiveTranslate-Flash將延遲降低至2.8秒,並支援60種輸入語言,輸出29種語言的語音,相比前代Qwen3-LiveTranslate-Flash(支援18種輸入語言,延遲約3秒)實現了顯著提升。
延遲最佳化的核心在於新引入的“閱讀單元”處理技術。模型不再等待完整句子結束才開始翻譯,而是在一個語義片段積累足夠資訊後立即提交翻譯結果,從而實現邊聽邊譯的連續流式輸出。這一技術將延遲進一步壓縮了約200毫秒。
除了音訊,該模型首次將視覺資訊作為一等輸入。在嘈雜的會議室或展會上,音訊訊號往往失真,但模型透過同步分析唇形、手勢、螢幕文字等視覺資訊,填補音訊的空白,顯著提升翻譯準確度。這一能力在真實部署中至關重要,因為音訊質量難以保證。
語音克隆功能是本次升級的亮點。傳統系統通常用合成語音替換原說話人,而Qwen3.5-LiveTranslate-Flash可在翻譯過程中即時克隆說話人的音色特徵,僅需一句話即可完成聲學適配。聽眾會感覺是同一人用目標語言講話,而非機器配音。
針對專業場景,模型引入了動態關鍵詞配置功能。開發者可以在會話開始時注入品牌名、醫學術語、法律詞彙等術語表,避免常見誤譯。這一功能填補了通用翻譯API在專業領域部署中的空白。
在權威的多語言語音翻譯基準FLEURS和CoVoST2上,Qwen3.5-LiveTranslate-Flash均超越了主流商業競品。FLEURS測試多種語言對在真實聲學條件下的翻譯質量,CoVoST2涵蓋21個翻譯方向,是評估多語言流水線效能的重要基準。
該模型以API形式透過阿里雲百鍊平臺提供,使用WebSocket協議支援持久連線。開發者需先註冊阿里雲賬號並獲取DashScope API金鑰,然後透過WebSocket傳送會話配置,指定源語言和目標語言。支援連續傳輸16kHz、16位PCM單聲道音訊以及可選影片幀。模型文本輸出支援全部60種語言,但語音輸出僅限29種,目標語言不在列表中時需要備用TTS方案。整體而言,Qwen3.5-LiveTranslate-Flash在即時多語言翻譯領域樹立了新標杆。