2026-06-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-25 16:00 UTC+8

Wan-Streamer v0.1：端到端实时交互基础模型

Wan-Streamer 是一个原生流式、端到端的交互基础模型，专为低延迟、全双工信视听交互设计。它在一个Transformer中统一建模语言、音频和视频的输入输出，使用块因果注意力实现增量流式，无需依赖外部模块。模型侧响应延迟约200毫秒，总交互延迟约550毫秒，支持亚秒级双工信视听通信。

来源arXiv Computer Vision作者: Lianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi

Wan-Streamer v0.1 是由 Lianghua Huang 等24位研究人员提出的原生流式、端到端交互基础模型，专为实时、低延迟、全双工信视听交互设计。该模型在单一Transformer框架内统一建模语言、音频和视频的输入输出，将序列表示为交错的视觉、音频和文本输入令牌以及视觉、音频和文本输出令牌，通过块因果注意力机制协调增量流式处理。与依赖独立VAD、ASR、语言、TTS、音频驱动动画或视频生成模块的级联交互系统不同，Wan-Streamer无需外部语言、语音、头像或视频生成模块：感知、推理、生成、响应时序、话轮管理以及跨模态同步都在一个统一模型中联合学习，从而减少了流水线延迟和错误积累。为了支持自然的视听响应，研究团队围绕流式能力重新设计了整个技术栈，包括因果编码器、因果解码器、块因果注意力和低延迟多模态令牌调度，实现了最短160毫秒（25fps）的流式单元。Wan-Streamer的模型侧响应延迟约为200毫秒，结合350毫秒双向网络延迟后，总交互延迟约为550毫秒，支持亚秒级双工信视听通信。这些成果使Wan-Streamer成为面向低延迟流式交互的统一、端到端、多模态交互基础模型。相关论文已提交至arXiv，并附带项目网站。该模型在单一框架内联合学习感知、推理、生成和对话管理，避免了级联架构中常见的错误传播和延迟累积问题。通过精心设计的因果编码器和解码器，以及创新的块因果注意力机制，Wan-Streamer能够以极低的延迟处理连续的音视频流。其低延迟多模态令牌调度算法进一步优化了流式处理性能，使得模型能够在25帧每秒下处理仅160毫秒的流式单元。这一技术突破对于构建下一代智能对话系统、虚拟助手和实时交互应用具有深远意义。