Wan-Streamer v0.1:端到端實時交互基礎模型
Wan-Streamer 是一個原生流式、端到端的交互基礎模型,專為低延遲、全雙工信視聽交互設計。它在一個Transformer中統一建模語言、音頻和視頻的輸入輸出,使用塊因果注意力實現增量流式,無需依賴外部模塊。模型側響應延遲約200毫秒,總交互延遲約550毫秒,支持亞秒級雙工信視聽通信。
Wan-Streamer v0.1 是由 Lianghua Huang 等24位研究人員提出的原生流式、端到端交互基礎模型,專為實時、低延遲、全雙工信視聽交互設計。該模型在單一Transformer框架內統一建模語言、音頻和視頻的輸入輸出,將序列表示為交錯的視覺、音頻和文本輸入令牌以及視覺、音頻和文本輸出令牌,通過塊因果注意力機制協調增量流式處理。與依賴獨立VAD、ASR、語言、TTS、音頻驅動動畫或視頻生成模塊的級聯交互系統不同,Wan-Streamer無需外部語言、語音、頭像或視頻生成模塊:感知、推理、生成、響應時序、話輪管理以及跨模態同步都在一個統一模型中聯合學習,從而減少了流水線延遲和錯誤積累。為了支持自然的視聽響應,研究團隊圍繞流式能力重新設計了整個技術棧,包括因果編碼器、因果解碼器、塊因果注意力和低延遲多模態令牌調度,實現了最短160毫秒(25fps)的流式單元。Wan-Streamer的模型側響應延遲約為200毫秒,結合350毫秒雙向網絡延遲後,總交互延遲約為550毫秒,支持亞秒級雙工信視聽通信。這些成果使Wan-Streamer成為面向低延遲流式交互的統一、端到端、多模態交互基礎模型。相關論文已提交至arXiv,並附帶項目網站。該模型在單一框架內聯合學習感知、推理、生成和對話管理,避免了級聯架構中常見的錯誤傳播和延遲累積問題。通過精心設計的因果編碼器和解碼器,以及創新的塊因果注意力機制,Wan-Streamer能夠以極低的延遲處理連續的音視頻流。其低延遲多模態令牌調度算法進一步優化了流式處理性能,使得模型能夠在25幀每秒下處理僅160毫秒的流式單元。這一技術突破對於構建下一代智能對話系統、虛擬助手和實時交互應用具有深遠意義。