2026-06-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-25 16:00 UTC+8

Wan-Streamer v0.1：端到端即時互動基礎模型

Wan-Streamer 是一個原生流式、端到端的互動基礎模型，專為低延遲、全雙工信視聽互動設計。它在一個Transformer中統一建模語言、音訊和影片的輸入輸出，使用塊因果注意力實現增量流式，無需依賴外部模組。模型側響應延遲約200毫秒，總互動延遲約550毫秒，支援亞秒級雙工信視聽通訊。

來源arXiv Computer Vision作者: Lianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi

Wan-Streamer v0.1 是由 Lianghua Huang 等24位研究人員提出的原生流式、端到端互動基礎模型，專為即時、低延遲、全雙工信視聽互動設計。該模型在單一Transformer框架內統一建模語言、音訊和影片的輸入輸出，將序列表示為交錯的視覺、音訊和文本輸入令牌以及視覺、音訊和文本輸出令牌，透過塊因果注意力機制協調增量流式處理。與依賴獨立VAD、ASR、語言、TTS、音訊驅動動畫或影片生成模組的級聯互動系統不同，Wan-Streamer無需外部語言、語音、頭像或影片生成模組：感知、推理、生成、響應時序、話輪管理以及跨模態同步都在一個統一模型中聯合學習，從而減少了流水線延遲和錯誤積累。為了支援自然的視聽響應，研究團隊圍繞流式能力重新設計了整個技術棧，包括因果編碼器、因果解碼器、塊因果注意力和低延遲多模態令牌排程，實現了最短160毫秒（25fps）的流式單元。Wan-Streamer的模型側響應延遲約為200毫秒，結合350毫秒雙向網路延遲後，總互動延遲約為550毫秒，支援亞秒級雙工信視聽通訊。這些成果使Wan-Streamer成為面向低延遲流式互動的統一、端到端、多模態互動基礎模型。相關論文已提交至arXiv，並附帶專案網站。該模型在單一框架內聯合學習感知、推理、生成和對話管理，避免了級聯架構中常見的錯誤傳播和延遲累積問題。透過精心設計的因果編碼器和解碼器，以及創新的塊因果注意力機制，Wan-Streamer能夠以極低的延遲處理連續的音影片流。其低延遲多模態令牌排程演算法進一步最佳化了流式處理效能，使得模型能夠在25幀每秒下處理僅160毫秒的流式單元。這一技術突破對於構建下一代智慧對話系統、虛擬助手和即時互動應用具有深遠意義。