Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型,首Token延迟降低约一个数量级
Zyphra发布了Zamba2-VL系列开放视觉语言模型,提供1.2B、2.7B和7B三个参数版本。模型采用混合Mamba2状态空间与Transformer骨干网络,基于Apache 2.0许可发布。在保持与同类Transformer VLM竞争力相当的同时,将首Token延迟降低了约一个数量级。
Zyphra近日发布了Zamba2-VL系列开放视觉语言模型(VLM),包含1.2B、2.7B和7B三种参数规模。该系列模型基于Zamba2混合状态空间模型(SSM)与Transformer骨干网络,遵循LLaVA风格架构:使用来自Qwen2.5-VL的Vision Transformer作为视觉编码器,通过两层MLP适配器将图像特征映射到语言模型空间。视觉编码器采用2D旋转位置嵌入和原生动态分辨率处理,能够高效处理多图像输入和理解。
Zamba2-VL的核心创新在于其语言骨干网络:混合了Mamba2状态空间层和少量共享Transformer注意力层。Mamba2层以线性时间运行,状态大小固定,负责大部分计算;共享注意力层则弥补纯SSM模型在上下文检索方面的不足,每层携带独特的LoRA适配器。这种设计在保持推理效率的同时,保留了注意力机制的检索能力。
在14项基准测试中,Zamba2-VL展现了竞争力。以2.7B模型为例,DocVQA得分90.9,ChartQA得分79.6,OCRBench得分73.6。视觉计数是其强项:1.2B模型在PixMoCount上得分62.5,远超InternVL3.5-1B的32.8和PerceptionLM-1B的17.7。然而,在知识密集型推理任务如MMMU和MathVista上,模型落后于同尺寸的Qwen3-VL和InternVL3.5。
推理速度是Zamba2-VL的主要优势。Transformer注意力机制随序列长度二次增长,而混合架构实现近线性时间预填充和固定大小的循环状态。在32k token预填充下,首Token延迟比同类Transformer模型降低约一个数量级。这一优势在1.2B和2.7B规模上最为显著,适合设备端和边缘部署。
模型以Apache 2.0许可公开,权重和推理代码已在Hugging Face和GitHub上发布。部署需使用Zyphra的transformers分支,并安装优化的Mamba2 CUDA内核。CPU路径较慢,建议在支持CUDA的GPU上运行。
Zamba2-VL在文档理解、表单提取、零售库存计数等场景具有应用潜力。其低延迟特性尤其适合多页PDF等长视觉输入。模型仍为研究性质,知识推理和OCR能力有待提升,但为VLM的效率优化提供了新方向。