AI News HubLIVE
站内改写1 分鐘閱讀

Zyphra發佈Zamba2-VL:混合Mamba2-Transformer視覺語言模型,首Token延遲降低約一個數量級

Zyphra發佈了Zamba2-VL系列開放視覺語言模型,提供1.2B、2.7B和7B三個參數版本。模型採用混合Mamba2狀態空間與Transformer骨幹網絡,基於Apache 2.0許可發佈。在保持與同類Transformer VLM競爭力相當的同時,將首Token延遲降低了約一個數量級。

來源MarkTechPost作者: Asif Razzaq

Zyphra近日發佈了Zamba2-VL系列開放視覺語言模型(VLM),包含1.2B、2.7B和7B三種參數規模。該系列模型基於Zamba2混合狀態空間模型(SSM)與Transformer骨幹網絡,遵循LLaVA風格架構:使用來自Qwen2.5-VL的Vision Transformer作為視覺編碼器,通過兩層MLP適配器將圖像特徵映射到語言模型空間。視覺編碼器採用2D旋轉位置嵌入和原生動態分辨率處理,能夠高效處理多圖像輸入和理解。

Zamba2-VL的核心創新在於其語言骨幹網絡:混合了Mamba2狀態空間層和少量共享Transformer注意力層。Mamba2層以線性時間運行,狀態大小固定,負責大部分計算;共享注意力層則彌補純SSM模型在上下文檢索方面的不足,每層攜帶獨特的LoRA適配器。這種設計在保持推理效率的同時,保留了注意力機制的檢索能力。

在14項基準測試中,Zamba2-VL展現了競爭力。以2.7B模型為例,DocVQA得分90.9,ChartQA得分79.6,OCRBench得分73.6。視覺計數是其強項:1.2B模型在PixMoCount上得分62.5,遠超InternVL3.5-1B的32.8和PerceptionLM-1B的17.7。然而,在知識密集型推理任務如MMMU和MathVista上,模型落後於同尺寸的Qwen3-VL和InternVL3.5。

推理速度是Zamba2-VL的主要優勢。Transformer注意力機制隨序列長度二次增長,而混合架構實現近線性時間預填充和固定大小的循環狀態。在32k token預填充下,首Token延遲比同類Transformer模型降低約一個數量級。這一優勢在1.2B和2.7B規模上最為顯著,適合設備端和邊緣部署。

模型以Apache 2.0許可公開,權重和推理代碼已在Hugging Face和GitHub上發佈。部署需使用Zyphra的transformers分支,並安裝優化的Mamba2 CUDA內核。CPU路徑較慢,建議在支持CUDA的GPU上運行。

Zamba2-VL在文檔理解、表單提取、零售庫存計數等場景具有應用潛力。其低延遲特性尤其適合多頁PDF等長視覺輸入。模型仍為研究性質,知識推理和OCR能力有待提升,但為VLM的效率優化提供了新方向。