2026-06-12站内改写1 分钟阅读更新: 2026-06-12

Zyphra发布Zamba2-VL：混合Mamba2-Transformer视觉语言模型，首Token延迟降低约一个数量级

Zyphra发布了Zamba2-VL系列开放视觉语言模型，提供1.2B、2.7B和7B三个参数版本。模型采用混合Mamba2状态空间与Transformer骨干网络，基于Apache 2.0许可发布。在保持与同类Transformer VLM竞争力相当的同时，将首Token延迟降低了约一个数量级。

来源MarkTechPost作者: Asif Razzaq

Zyphra近日发布了Zamba2-VL系列开放视觉语言模型（VLM），包含1.2B、2.7B和7B三种参数规模。该系列模型基于Zamba2混合状态空间模型（SSM）与Transformer骨干网络，遵循LLaVA风格架构：使用来自Qwen2.5-VL的Vision Transformer作为视觉编码器，通过两层MLP适配器将图像特征映射到语言模型空间。视觉编码器采用2D旋转位置嵌入和原生动态分辨率处理，能够高效处理多图像输入和理解。

Zamba2-VL的核心创新在于其语言骨干网络：混合了Mamba2状态空间层和少量共享Transformer注意力层。Mamba2层以线性时间运行，状态大小固定，负责大部分计算；共享注意力层则弥补纯SSM模型在上下文检索方面的不足，每层携带独特的LoRA适配器。这种设计在保持推理效率的同时，保留了注意力机制的检索能力。

在14项基准测试中，Zamba2-VL展现了竞争力。以2.7B模型为例，DocVQA得分90.9，ChartQA得分79.6，OCRBench得分73.6。视觉计数是其强项：1.2B模型在PixMoCount上得分62.5，远超InternVL3.5-1B的32.8和PerceptionLM-1B的17.7。然而，在知识密集型推理任务如MMMU和MathVista上，模型落后于同尺寸的Qwen3-VL和InternVL3.5。

推理速度是Zamba2-VL的主要优势。Transformer注意力机制随序列长度二次增长，而混合架构实现近线性时间预填充和固定大小的循环状态。在32k token预填充下，首Token延迟比同类Transformer模型降低约一个数量级。这一优势在1.2B和2.7B规模上最为显著，适合设备端和边缘部署。

模型以Apache 2.0许可公开，权重和推理代码已在Hugging Face和GitHub上发布。部署需使用Zyphra的transformers分支，并安装优化的Mamba2 CUDA内核。CPU路径较慢，建议在支持CUDA的GPU上运行。

Zamba2-VL在文档理解、表单提取、零售库存计数等场景具有应用潜力。其低延迟特性尤其适合多页PDF等长视觉输入。模型仍为研究性质，知识推理和OCR能力有待提升，但为VLM的效率优化提供了新方向。