Google DeepMind 釋出 Gemma 4 12B:無需編碼器的多模態模型,原生音訊支援,可在 16GB 筆記型電腦上執行
Google DeepMind 釋出 Gemma 4 12B,這是一款 120 億引數的密集多模態模型,採用無編碼器設計,直接將視覺和音訊輸入 LLM 主幹。該模型可在 16GB RAM 的消費級筆記型電腦上本地執行,並採用 Apache 2.0 許可證。它原生支援文本、影像、音訊和影片,是首個具備原生音訊功能的中型 Gemma 模型。
Google DeepMind 於 2026 年 6 月 3 日釋出了 Gemma 4 12B,這是一款 120 億引數的密集多模態模型,其最大的特點是去掉了傳統的編碼器,直接將視覺和音訊資訊輸入到 LLM 的主幹網路中。該模型可在配備 16GB RAM 的消費級筆記型電腦上本地執行,並採用 Apache 2.0 開源許可證,權重公開可下載。
模型概覽與訪問
Gemma 4 12B 是一個純解碼器 Transformer 模型,原生支援文本、影像、音訊和影片。與之前的中型 Gemma 模型不同,它沒有獨立的視覺或音訊編碼器。視覺處理使用一個 3500 萬引數的嵌入器,將影像分割成 48×48 畫素的塊,每個塊透過單個矩陣乘法投影到 LLM 的隱藏維度,並使用因子化的 XY 座標查詢新增位置資訊。音訊處理則直接將 16kHz 的原始音訊切片成 40ms 的幀(每幀 640 個值),線性投影到與文本令牌相同的嵌入空間,無需特徵提取或 conformer 層。這種統一的設計使得微調時可以一次性更新視覺、音訊和文本處理,無需共同微調多個凍結的編碼器。
效能與能力
雖然 Google DeepMind 在初始釋出中沒有公佈完整的基準測試資料,但官方指出該模型在標準基準上的表現接近 26B MoE 模型,而記憶體佔用不到後者的一半。演示的能力包括:原生自動語音識別(無需外部 ASR 流水線)、說話人分離、影片理解(例如分析 5 分鐘的 Google I/O 主題演講,使用 313 幀,每秒 1 幀,每幀視覺令牌預算 70 個),以及程式碼生成(使用 llama.cpp 本地構建 Gradio 應用)。在 Google 的 AI Edge Eloquent 應用中,切換到 Gemma 4 12B 後整體質量提升了 60% 以上。
本地執行
模型支援多種推理棧,包括 llama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth 和 LM Studio。還提供了一個專門的多令牌預測(MTP)起草模型以降低推理延遲。使用者可以透過 Google AI Edge Gallery、Eloquent 應用或 LiteRT-LM CLI 在 macOS 上本地執行,該 CLI 提供 OpenAI 相容的 API 端點。此外,模型可在 Cloud Run、GKE 或 Gemini Enterprise Agent Platform 上部署。
關鍵意義
Gemma 4 12B 的無編碼器設計不僅降低了延遲和引數開銷,還使得在本地硬體上執行多步驟代理工作流成為可能。這是首個原生支援音訊的中型 Gemma 模型,為邊緣 AI 應用開闢了新的可能性。