阿里巴巴Qwen團隊推出Qwen3.5-LiveTranslate-Flash:支持60種語言、延遲僅2.8秒的實時多模態翻譯模型
阿里巴巴Qwen團隊發佈了Qwen3.5-LiveTranslate-Flash,這是一款實時多模態翻譯模型,可同時處理音頻和視頻。該模型支持60種輸入語言,並以2.8秒的延遲輸出29種語言的語音。相比上一版本,新增了實時説話人聲音克隆、通過唇形和屏幕文本增強視覺理解,以及動態關鍵詞配置以處理領域特定術語。在FLEURS和CoVoST2基準測試中,該模型表現優於主要商業替代品。該模型通過阿里雲百鍊平台以API形式提供,使用WebSocket協議。
同聲傳譯一直是人工智能領域最具挑戰性的問題之一。翻譯模型需要在説話人尚未説完句子之前就開始輸出,每增加一秒延遲都會破壞實時交流的體驗。阿里巴巴的Qwen團隊持續在這一方向取得突破,最新發布的Qwen3.5-LiveTranslate-Flash將延遲降低至2.8秒,並支持60種輸入語言,輸出29種語言的語音,相比前代Qwen3-LiveTranslate-Flash(支持18種輸入語言,延遲約3秒)實現了顯著提升。
延遲優化的核心在於新引入的“閲讀單元”處理技術。模型不再等待完整句子結束才開始翻譯,而是在一個語義片段積累足夠信息後立即提交翻譯結果,從而實現邊聽邊譯的連續流式輸出。這一技術將延遲進一步壓縮了約200毫秒。
除了音頻,該模型首次將視覺信息作為一等輸入。在嘈雜的會議室或展會上,音頻信號往往失真,但模型通過同步分析唇形、手勢、屏幕文字等視覺信息,填補音頻的空白,顯著提升翻譯準確度。這一能力在真實部署中至關重要,因為音頻質量難以保證。
語音克隆功能是本次升級的亮點。傳統系統通常用合成語音替換原説話人,而Qwen3.5-LiveTranslate-Flash可在翻譯過程中實時克隆説話人的音色特徵,僅需一句話即可完成聲學適配。聽眾會感覺是同一人用目標語言講話,而非機器配音。
針對專業場景,模型引入了動態關鍵詞配置功能。開發者可以在會話開始時注入品牌名、醫學術語、法律詞彙等術語表,避免常見誤譯。這一功能填補了通用翻譯API在專業領域部署中的空白。
在權威的多語言語音翻譯基準FLEURS和CoVoST2上,Qwen3.5-LiveTranslate-Flash均超越了主流商業競品。FLEURS測試多種語言對在真實聲學條件下的翻譯質量,CoVoST2涵蓋21個翻譯方向,是評估多語言流水線性能的重要基準。
該模型以API形式通過阿里雲百鍊平台提供,使用WebSocket協議支持持久連接。開發者需先註冊阿里雲賬號並獲取DashScope API密鑰,然後通過WebSocket發送會話配置,指定源語言和目標語言。支持連續傳輸16kHz、16位PCM單聲道音頻以及可選視頻幀。模型文本輸出支持全部60種語言,但語音輸出僅限29種,目標語言不在列表中時需要備用TTS方案。整體而言,Qwen3.5-LiveTranslate-Flash在實時多語言翻譯領域樹立了新標杆。