Wan-Streamer v0.1:端到端实时交互基础模型
Wan-Streamer 是一个原生流式、端到端的交互基础模型,专为低延迟、全双工信视听交互设计。它在一个Transformer中统一建模语言、音频和视频的输入输出,使用块因果注意力实现增量流式,无需依赖外部模块。模型侧响应延迟约200毫秒,总交互延迟约550毫秒,支持亚秒级双工信视听通信。
Wan-Streamer v0.1 是由 Lianghua Huang 等24位研究人员提出的原生流式、端到端交互基础模型,专为实时、低延迟、全双工信视听交互设计。该模型在单一Transformer框架内统一建模语言、音频和视频的输入输出,将序列表示为交错的视觉、音频和文本输入令牌以及视觉、音频和文本输出令牌,通过块因果注意力机制协调增量流式处理。与依赖独立VAD、ASR、语言、TTS、音频驱动动画或视频生成模块的级联交互系统不同,Wan-Streamer无需外部语言、语音、头像或视频生成模块:感知、推理、生成、响应时序、话轮管理以及跨模态同步都在一个统一模型中联合学习,从而减少了流水线延迟和错误积累。为了支持自然的视听响应,研究团队围绕流式能力重新设计了整个技术栈,包括因果编码器、因果解码器、块因果注意力和低延迟多模态令牌调度,实现了最短160毫秒(25fps)的流式单元。Wan-Streamer的模型侧响应延迟约为200毫秒,结合350毫秒双向网络延迟后,总交互延迟约为550毫秒,支持亚秒级双工信视听通信。这些成果使Wan-Streamer成为面向低延迟流式交互的统一、端到端、多模态交互基础模型。相关论文已提交至arXiv,并附带项目网站。该模型在单一框架内联合学习感知、推理、生成和对话管理,避免了级联架构中常见的错误传播和延迟累积问题。通过精心设计的因果编码器和解码器,以及创新的块因果注意力机制,Wan-Streamer能够以极低的延迟处理连续的音视频流。其低延迟多模态令牌调度算法进一步优化了流式处理性能,使得模型能够在25帧每秒下处理仅160毫秒的流式单元。这一技术突破对于构建下一代智能对话系统、虚拟助手和实时交互应用具有深远意义。