Wan-Streamer v0.1:端到端即時互動基礎模型
Wan-Streamer 是一個原生流式、端到端的互動基礎模型,專為低延遲、全雙工信視聽互動設計。它在一個Transformer中統一建模語言、音訊和影片的輸入輸出,使用塊因果注意力實現增量流式,無需依賴外部模組。模型側響應延遲約200毫秒,總互動延遲約550毫秒,支援亞秒級雙工信視聽通訊。
Wan-Streamer v0.1 是由 Lianghua Huang 等24位研究人員提出的原生流式、端到端互動基礎模型,專為即時、低延遲、全雙工信視聽互動設計。該模型在單一Transformer框架內統一建模語言、音訊和影片的輸入輸出,將序列表示為交錯的視覺、音訊和文本輸入令牌以及視覺、音訊和文本輸出令牌,透過塊因果注意力機制協調增量流式處理。與依賴獨立VAD、ASR、語言、TTS、音訊驅動動畫或影片生成模組的級聯互動系統不同,Wan-Streamer無需外部語言、語音、頭像或影片生成模組:感知、推理、生成、響應時序、話輪管理以及跨模態同步都在一個統一模型中聯合學習,從而減少了流水線延遲和錯誤積累。為了支援自然的視聽響應,研究團隊圍繞流式能力重新設計了整個技術棧,包括因果編碼器、因果解碼器、塊因果注意力和低延遲多模態令牌排程,實現了最短160毫秒(25fps)的流式單元。Wan-Streamer的模型側響應延遲約為200毫秒,結合350毫秒雙向網路延遲後,總互動延遲約為550毫秒,支援亞秒級雙工信視聽通訊。這些成果使Wan-Streamer成為面向低延遲流式互動的統一、端到端、多模態互動基礎模型。相關論文已提交至arXiv,並附帶專案網站。該模型在單一框架內聯合學習感知、推理、生成和對話管理,避免了級聯架構中常見的錯誤傳播和延遲累積問題。透過精心設計的因果編碼器和解碼器,以及創新的塊因果注意力機制,Wan-Streamer能夠以極低的延遲處理連續的音影片流。其低延遲多模態令牌排程演算法進一步最佳化了流式處理效能,使得模型能夠在25幀每秒下處理僅160毫秒的流式單元。這一技術突破對於構建下一代智慧對話系統、虛擬助手和即時互動應用具有深遠意義。