AI News HubLIVE
站内改写2 分で読了

Zyphra、Zamba2-VLをリリース:Mamba2-Transformerハイブリッド視覚言語モデル、初回トークンまでの時間を約一桁削減

Zyphraは、1.2B、2.7B、7Bパラメータのオープンな視覚言語モデルZamba2-VLファミリーをリリース。Mamba2状態空間とTransformerのハイブリッドバックボーンを採用し、Apache 2.0ライセンスで提供。同等のTransformer VLMと競合しつつ、初回トークンまでの時間を約一桁削減。

ソースMarkTechPost著者: Asif Razzaq

Zyphraは、Zamba2-VLシリーズのオープンな視覚言語モデル(VLM)をリリースした。1.2B、2.7B、7Bの3つのパラメータサイズを提供し、Zamba2ハイブリッド状態空間モデル(SSM)とTransformerバックボーンに基づいている。アーキテクチャはLLaVAスタイルを踏襲し、Qwen2.5-VLのVision Transformerを視覚エンコーダとして使用、2層MLPアダプタで画像特徴を言語モデル空間にマッピングする。視覚エンコーダは2D回転位置埋め込みとネイティブ動的解像度処理を採用し、マルチイメージ入力とグラウンディングを効率的に処理する。

Zamba2-VLの核心は言語バックボーンにある。Mamba2状態空間層と少数の共有Transformerアテンション層をハイブリッド構成。Mamba2層は線形時間で固定サイズの状態を維持し、計算の大部分を担う。共有アテンション層は純粋なSSMモデルが失うコンテキスト検索能力を補い、各層に固有のLoRAアダプタを持つ。この設計は、推論効率を維持しながらアテンション機構の検索能力を保持する。

14のベンチマーク評価では、2.7BモデルがDocVQAで90.9、ChartQAで79.6、OCRBenchで73.6を記録。視覚的カウントは最強で、1.2BモデルがPixMoCountで62.5を達成(InternVL3.5-1Bは32.8、PerceptionLM-1Bは17.7)。しかし、MMMUやMathVistaなどの知識集約型推論では、同サイズのQwen3-VLやInternVL3.5に劣る。

推論速度がZamba2-VLの主な利点である。Transformerアテンションはシーケンス長に対して二次関数的にスケールするが、ハイブリッドアーキテクチャはほぼ線形時間のプリフィルと固定サイズのリカレント状態を実現。32kトークンのプリフィルでは、初回トークンまでのレイテンシが同等のTransformer VLMと比較して約一桁低い。この利点は1.2Bと2.7B規模で最も顕著であり、デバイス上およびエッジ展開に適している。

モデルはApache 2.0ライセンスで公開され、重みと推論コードはHugging FaceとGitHubで入手可能。デプロイにはZyphraのtransformersブランチを使用し、最適化されたMamba2 CUDAカーネルが必要。CPUパスは低速なため、CUDA GPU上での実行を推奨。

Zamba2-VLは文書理解、フォーム抽出、小売在庫計数などのシナリオに応用可能。その低レイテンシは、マルチページPDFなどの長い視覚入力に特に有効である。研究段階のモデルであり、知識推論やOCR性能には改善の余地があるが、VLMの効率最適化に新たな方向性を示している。