2026-06-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-25 16:00 UTC+8

Wan-Streamer v0.1：端到端實時交互基礎模型

Wan-Streamer 是一個原生流式、端到端的交互基礎模型，專為低延遲、全雙工信視聽交互設計。它在一個Transformer中統一建模語言、音頻和視頻的輸入輸出，使用塊因果注意力實現增量流式，無需依賴外部模塊。模型側響應延遲約200毫秒，總交互延遲約550毫秒，支持亞秒級雙工信視聽通信。

來源arXiv Computer Vision作者: Lianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi

Wan-Streamer v0.1 是由 Lianghua Huang 等24位研究人員提出的原生流式、端到端交互基礎模型，專為實時、低延遲、全雙工信視聽交互設計。該模型在單一Transformer框架內統一建模語言、音頻和視頻的輸入輸出，將序列表示為交錯的視覺、音頻和文本輸入令牌以及視覺、音頻和文本輸出令牌，通過塊因果注意力機制協調增量流式處理。與依賴獨立VAD、ASR、語言、TTS、音頻驅動動畫或視頻生成模塊的級聯交互系統不同，Wan-Streamer無需外部語言、語音、頭像或視頻生成模塊：感知、推理、生成、響應時序、話輪管理以及跨模態同步都在一個統一模型中聯合學習，從而減少了流水線延遲和錯誤積累。為了支持自然的視聽響應，研究團隊圍繞流式能力重新設計了整個技術棧，包括因果編碼器、因果解碼器、塊因果注意力和低延遲多模態令牌調度，實現了最短160毫秒（25fps）的流式單元。Wan-Streamer的模型側響應延遲約為200毫秒，結合350毫秒雙向網絡延遲後，總交互延遲約為550毫秒，支持亞秒級雙工信視聽通信。這些成果使Wan-Streamer成為面向低延遲流式交互的統一、端到端、多模態交互基礎模型。相關論文已提交至arXiv，並附帶項目網站。該模型在單一框架內聯合學習感知、推理、生成和對話管理，避免了級聯架構中常見的錯誤傳播和延遲累積問題。通過精心設計的因果編碼器和解碼器，以及創新的塊因果注意力機制，Wan-Streamer能夠以極低的延遲處理連續的音視頻流。其低延遲多模態令牌調度算法進一步優化了流式處理性能，使得模型能夠在25幀每秒下處理僅160毫秒的流式單元。這一技術突破對於構建下一代智能對話系統、虛擬助手和實時交互應用具有深遠意義。