Zyphra釋出Zamba2-VL:混合Mamba2-Transformer視覺語言模型,首Token延遲降低約一個數量級
Zyphra釋出了Zamba2-VL系列開放視覺語言模型,提供1.2B、2.7B和7B三個引數版本。模型採用混合Mamba2狀態空間與Transformer骨幹網路,基於Apache 2.0許可釋出。在保持與同類Transformer VLM競爭力相當的同時,將首Token延遲降低了約一個數量級。
Zyphra近日釋出了Zamba2-VL系列開放視覺語言模型(VLM),包含1.2B、2.7B和7B三種引數規模。該系列模型基於Zamba2混合狀態空間模型(SSM)與Transformer骨幹網路,遵循LLaVA風格架構:使用來自Qwen2.5-VL的Vision Transformer作為視覺編碼器,透過兩層MLP介面卡將影像特徵對映到語言模型空間。視覺編碼器採用2D旋轉位置嵌入和原生動態解析度處理,能夠高效處理多影像輸入和理解。
Zamba2-VL的核心創新在於其語言骨幹網路:混合了Mamba2狀態空間層和少量共享Transformer注意力層。Mamba2層以線性時間執行,狀態大小固定,負責大部分計算;共享注意力層則彌補純SSM模型在上下文檢索方面的不足,每層攜帶獨特的LoRA介面卡。這種設計在保持推理效率的同時,保留了注意力機制的檢索能力。
在14項基準測試中,Zamba2-VL展現了競爭力。以2.7B模型為例,DocVQA得分90.9,ChartQA得分79.6,OCRBench得分73.6。視覺計數是其強項:1.2B模型在PixMoCount上得分62.5,遠超InternVL3.5-1B的32.8和PerceptionLM-1B的17.7。然而,在知識密集型推理任務如MMMU和MathVista上,模型落後於同尺寸的Qwen3-VL和InternVL3.5。
推理速度是Zamba2-VL的主要優勢。Transformer注意力機制隨序列長度二次增長,而混合架構實現近線性時間預填充和固定大小的迴圈狀態。在32k token預填充下,首Token延遲比同類Transformer模型降低約一個數量級。這一優勢在1.2B和2.7B規模上最為顯著,適合裝置端和邊緣部署。
模型以Apache 2.0許可公開,權重和推理程式碼已在Hugging Face和GitHub上釋出。部署需使用Zyphra的transformers分支,並安裝最佳化的Mamba2 CUDA核心。CPU路徑較慢,建議在支援CUDA的GPU上執行。
Zamba2-VL在文件理解、表單提取、零售庫存計數等場景具有應用潛力。其低延遲特性尤其適合多頁PDF等長視覺輸入。模型仍為研究性質,知識推理和OCR能力有待提升,但為VLM的效率最佳化提供了新方向。