VSAS-Bench:视觉流式助手模型的实时评估
流式视觉语言模型(VLM)根据指令和输入帧流连续生成响应,用于实时视觉助手。现有基准多评估离线模型,而VSAS-Bench针对流式VLM引入主动性和一致性等指标,拥有超过18,000个密集标注,提供同步和异步评估协议。大规模评估表明,传统VLM无需额外训练即可适应流式场景,性能优于专用流式VLM。
流式视觉语言模型(VLM)是一种能够根据指令提示和在线输入的连续帧流持续生成响应的模型,这是实时视觉助手的核心技术。然而,现有的VLM评估框架大多聚焦于离线场景,忽略了流式模型特有的性能维度。例如,主动性和一致性——前者衡量模型响应的及时性,后者评估响应随时间变化的鲁棒性——在传统基准中未被充分考量。
为弥补这一空白,苹果机器学习研究团队(包括Pavan Kumar Anasosalu Vasu、Cem Koc、Fartash Faghri、Chun-Liang Li、Bo Feng、Zhengfeng Lai、Meng Cao、Oncel Tuzel、Hadi Pouransari等)提出了VSAS-Bench,一个专为视觉流式助手设计的新框架与基准。与以往基于视频的单轮问答评测不同,VSAS-Bench提供了时间密集的标注,涵盖超过18,000个标注点,涉及多种输入领域(如视频、实时流等)和任务类型(如目标检测、事件描述、主动提问等)。该基准还引入了标准化的同步与异步评估协议。同步协议要求模型在固定时间窗口内给出响应,异步协议则允许模型在任意时刻输出,更贴近真实应用。此外,VSAS-Bench设计了专门的指标来隔离和测量流式VLM的不同能力,包括主动性和一致性得分。
利用VSAS-Bench,研究团队对近期主流的视频VLM和流式VLM进行了大规模评估,深入分析了关键设计因素(如内存缓冲长度、内存访问策略和输入分辨率)下的准确率-延迟权衡,得出了若干实用见解。例如,适当增加内存缓冲长度可以提升一致性,但会增加延迟;而合理的内存访问策略(如优先处理新帧)可以改善主动性。值得注意的是,实验表明,传统VLM(如Qwen3-VL-4B)无需额外训练即可适应流式设置,只需在推理时采用流式输入方式即可。这些经过简单适配的模型在性能上超越了专门的流式VLM。例如,在异步协议下,Qwen3-VL-4B模型比当前最佳的流式VLM Dispider高出3%。
这项研究不仅为流式VLM的评估提供了标准化工具,也为未来实时视觉助手的开发指明了方向:无需复杂定制,即可通过现有模型实现更优的流式性能。这有望加速实时视觉助手在自动驾驶、机器人、增强现实等领域的应用。