2026-05-20站内改写2 分鐘閱讀更新: 2026-06-12

阿里巴巴Qwen團隊推出Qwen3.5-LiveTranslate-Flash：支援60種語言、延遲僅2.8秒的即時多模態翻譯模型

阿里巴巴Qwen團隊釋出了Qwen3.5-LiveTranslate-Flash，這是一款即時多模態翻譯模型，可同時處理音訊和影片。該模型支援60種輸入語言，並以2.8秒的延遲輸出29種語言的語音。相比上一版本，新增了即時說話人聲音克隆、透過唇形和螢幕文本增強視覺理解，以及動態關鍵詞配置以處理領域特定術語。在FLEURS和CoVoST2基準測試中，該模型表現優於主要商業替代品。該模型透過阿里雲百鍊平臺以API形式提供，使用WebSocket協議。

來源MarkTechPost作者: Asif Razzaq

同聲傳譯一直是人工智慧領域最具挑戰性的問題之一。翻譯模型需要在說話人尚未說完句子之前就開始輸出，每增加一秒延遲都會破壞即時交流的體驗。阿里巴巴的Qwen團隊持續在這一方向取得突破，最新發布的Qwen3.5-LiveTranslate-Flash將延遲降低至2.8秒，並支援60種輸入語言，輸出29種語言的語音，相比前代Qwen3-LiveTranslate-Flash（支援18種輸入語言，延遲約3秒）實現了顯著提升。

延遲最佳化的核心在於新引入的“閱讀單元”處理技術。模型不再等待完整句子結束才開始翻譯，而是在一個語義片段積累足夠資訊後立即提交翻譯結果，從而實現邊聽邊譯的連續流式輸出。這一技術將延遲進一步壓縮了約200毫秒。

除了音訊，該模型首次將視覺資訊作為一等輸入。在嘈雜的會議室或展會上，音訊訊號往往失真，但模型透過同步分析唇形、手勢、螢幕文字等視覺資訊，填補音訊的空白，顯著提升翻譯準確度。這一能力在真實部署中至關重要，因為音訊質量難以保證。

語音克隆功能是本次升級的亮點。傳統系統通常用合成語音替換原說話人，而Qwen3.5-LiveTranslate-Flash可在翻譯過程中即時克隆說話人的音色特徵，僅需一句話即可完成聲學適配。聽眾會感覺是同一人用目標語言講話，而非機器配音。

針對專業場景，模型引入了動態關鍵詞配置功能。開發者可以在會話開始時注入品牌名、醫學術語、法律詞彙等術語表，避免常見誤譯。這一功能填補了通用翻譯API在專業領域部署中的空白。

在權威的多語言語音翻譯基準FLEURS和CoVoST2上，Qwen3.5-LiveTranslate-Flash均超越了主流商業競品。FLEURS測試多種語言對在真實聲學條件下的翻譯質量，CoVoST2涵蓋21個翻譯方向，是評估多語言流水線效能的重要基準。

該模型以API形式透過阿里雲百鍊平臺提供，使用WebSocket協議支援持久連線。開發者需先註冊阿里雲賬號並獲取DashScope API金鑰，然後透過WebSocket傳送會話配置，指定源語言和目標語言。支援連續傳輸16kHz、16位PCM單聲道音訊以及可選影片幀。模型文本輸出支援全部60種語言，但語音輸出僅限29種，目標語言不在列表中時需要備用TTS方案。整體而言，Qwen3.5-LiveTranslate-Flash在即時多語言翻譯領域樹立了新標杆。