2026-06-12站内改写1 分鐘閱讀更新: 2026-06-12

Zyphra發佈Zamba2-VL：混合Mamba2-Transformer視覺語言模型，首Token延遲降低約一個數量級

Zyphra發佈了Zamba2-VL系列開放視覺語言模型，提供1.2B、2.7B和7B三個參數版本。模型採用混合Mamba2狀態空間與Transformer骨幹網絡，基於Apache 2.0許可發佈。在保持與同類Transformer VLM競爭力相當的同時，將首Token延遲降低了約一個數量級。

來源MarkTechPost作者: Asif Razzaq

Zyphra近日發佈了Zamba2-VL系列開放視覺語言模型（VLM），包含1.2B、2.7B和7B三種參數規模。該系列模型基於Zamba2混合狀態空間模型（SSM）與Transformer骨幹網絡，遵循LLaVA風格架構：使用來自Qwen2.5-VL的Vision Transformer作為視覺編碼器，通過兩層MLP適配器將圖像特徵映射到語言模型空間。視覺編碼器採用2D旋轉位置嵌入和原生動態分辨率處理，能夠高效處理多圖像輸入和理解。

Zamba2-VL的核心創新在於其語言骨幹網絡：混合了Mamba2狀態空間層和少量共享Transformer注意力層。Mamba2層以線性時間運行，狀態大小固定，負責大部分計算；共享注意力層則彌補純SSM模型在上下文檢索方面的不足，每層攜帶獨特的LoRA適配器。這種設計在保持推理效率的同時，保留了注意力機制的檢索能力。

在14項基準測試中，Zamba2-VL展現了競爭力。以2.7B模型為例，DocVQA得分90.9，ChartQA得分79.6，OCRBench得分73.6。視覺計數是其強項：1.2B模型在PixMoCount上得分62.5，遠超InternVL3.5-1B的32.8和PerceptionLM-1B的17.7。然而，在知識密集型推理任務如MMMU和MathVista上，模型落後於同尺寸的Qwen3-VL和InternVL3.5。

推理速度是Zamba2-VL的主要優勢。Transformer注意力機制隨序列長度二次增長，而混合架構實現近線性時間預填充和固定大小的循環狀態。在32k token預填充下，首Token延遲比同類Transformer模型降低約一個數量級。這一優勢在1.2B和2.7B規模上最為顯著，適合設備端和邊緣部署。

模型以Apache 2.0許可公開，權重和推理代碼已在Hugging Face和GitHub上發佈。部署需使用Zyphra的transformers分支，並安裝優化的Mamba2 CUDA內核。CPU路徑較慢，建議在支持CUDA的GPU上運行。

Zamba2-VL在文檔理解、表單提取、零售庫存計數等場景具有應用潛力。其低延遲特性尤其適合多頁PDF等長視覺輸入。模型仍為研究性質，知識推理和OCR能力有待提升，但為VLM的效率優化提供了新方向。