2026-05-20站内改写2 分鐘閱讀更新: 2026-06-12

阿里巴巴Qwen團隊推出Qwen3.5-LiveTranslate-Flash：支持60種語言、延遲僅2.8秒的實時多模態翻譯模型

阿里巴巴Qwen團隊發佈了Qwen3.5-LiveTranslate-Flash，這是一款實時多模態翻譯模型，可同時處理音頻和視頻。該模型支持60種輸入語言，並以2.8秒的延遲輸出29種語言的語音。相比上一版本，新增了實時説話人聲音克隆、通過唇形和屏幕文本增強視覺理解，以及動態關鍵詞配置以處理領域特定術語。在FLEURS和CoVoST2基準測試中，該模型表現優於主要商業替代品。該模型通過阿里雲百鍊平台以API形式提供，使用WebSocket協議。

來源MarkTechPost作者: Asif Razzaq

同聲傳譯一直是人工智能領域最具挑戰性的問題之一。翻譯模型需要在説話人尚未説完句子之前就開始輸出，每增加一秒延遲都會破壞實時交流的體驗。阿里巴巴的Qwen團隊持續在這一方向取得突破，最新發布的Qwen3.5-LiveTranslate-Flash將延遲降低至2.8秒，並支持60種輸入語言，輸出29種語言的語音，相比前代Qwen3-LiveTranslate-Flash（支持18種輸入語言，延遲約3秒）實現了顯著提升。

延遲優化的核心在於新引入的“閲讀單元”處理技術。模型不再等待完整句子結束才開始翻譯，而是在一個語義片段積累足夠信息後立即提交翻譯結果，從而實現邊聽邊譯的連續流式輸出。這一技術將延遲進一步壓縮了約200毫秒。

除了音頻，該模型首次將視覺信息作為一等輸入。在嘈雜的會議室或展會上，音頻信號往往失真，但模型通過同步分析唇形、手勢、屏幕文字等視覺信息，填補音頻的空白，顯著提升翻譯準確度。這一能力在真實部署中至關重要，因為音頻質量難以保證。

語音克隆功能是本次升級的亮點。傳統系統通常用合成語音替換原説話人，而Qwen3.5-LiveTranslate-Flash可在翻譯過程中實時克隆説話人的音色特徵，僅需一句話即可完成聲學適配。聽眾會感覺是同一人用目標語言講話，而非機器配音。

針對專業場景，模型引入了動態關鍵詞配置功能。開發者可以在會話開始時注入品牌名、醫學術語、法律詞彙等術語表，避免常見誤譯。這一功能填補了通用翻譯API在專業領域部署中的空白。

在權威的多語言語音翻譯基準FLEURS和CoVoST2上，Qwen3.5-LiveTranslate-Flash均超越了主流商業競品。FLEURS測試多種語言對在真實聲學條件下的翻譯質量，CoVoST2涵蓋21個翻譯方向，是評估多語言流水線性能的重要基準。

該模型以API形式通過阿里雲百鍊平台提供，使用WebSocket協議支持持久連接。開發者需先註冊阿里雲賬號並獲取DashScope API密鑰，然後通過WebSocket發送會話配置，指定源語言和目標語言。支持連續傳輸16kHz、16位PCM單聲道音頻以及可選視頻幀。模型文本輸出支持全部60種語言，但語音輸出僅限29種，目標語言不在列表中時需要備用TTS方案。整體而言，Qwen3.5-LiveTranslate-Flash在實時多語言翻譯領域樹立了新標杆。