AI News HubLIVE
站内改写2 分鐘閱讀

Google DeepMind 發佈 Gemma 4 12B:無需編碼器的多模態模型,原生音頻支持,可在 16GB 筆記本電腦上運行

Google DeepMind 發佈 Gemma 4 12B,這是一款 120 億參數的密集多模態模型,採用無編碼器設計,直接將視覺和音頻輸入 LLM 主幹。該模型可在 16GB RAM 的消費級筆記本電腦上本地運行,並採用 Apache 2.0 許可證。它原生支持文本、圖像、音頻和視頻,是首個具備原生音頻功能的中型 Gemma 模型。

來源MarkTechPost作者: Asif Razzaq

Google DeepMind 於 2026 年 6 月 3 日發佈了 Gemma 4 12B,這是一款 120 億參數的密集多模態模型,其最大的特點是去掉了傳統的編碼器,直接將視覺和音頻信息輸入到 LLM 的主幹網絡中。該模型可在配備 16GB RAM 的消費級筆記本電腦上本地運行,並採用 Apache 2.0 開源許可證,權重公開可下載。

模型概覽與訪問

Gemma 4 12B 是一個純解碼器 Transformer 模型,原生支持文本、圖像、音頻和視頻。與之前的中型 Gemma 模型不同,它沒有獨立的視覺或音頻編碼器。視覺處理使用一個 3500 萬參數的嵌入器,將圖像分割成 48×48 像素的塊,每個塊通過單個矩陣乘法投影到 LLM 的隱藏維度,並使用因子化的 XY 座標查找添加位置信息。音頻處理則直接將 16kHz 的原始音頻切片成 40ms 的幀(每幀 640 個值),線性投影到與文本令牌相同的嵌入空間,無需特徵提取或 conformer 層。這種統一的設計使得微調時可以一次性更新視覺、音頻和文本處理,無需共同微調多個凍結的編碼器。

性能與能力

雖然 Google DeepMind 在初始發佈中沒有公佈完整的基準測試數據,但官方指出該模型在標準基準上的表現接近 26B MoE 模型,而內存佔用不到後者的一半。演示的能力包括:原生自動語音識別(無需外部 ASR 流水線)、説話人分離、視頻理解(例如分析 5 分鐘的 Google I/O 主題演講,使用 313 幀,每秒 1 幀,每幀視覺令牌預算 70 個),以及代碼生成(使用 llama.cpp 本地構建 Gradio 應用)。在 Google 的 AI Edge Eloquent 應用中,切換到 Gemma 4 12B 後整體質量提升了 60% 以上。

本地運行

模型支持多種推理棧,包括 llama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth 和 LM Studio。還提供了一個專門的多令牌預測(MTP)起草模型以降低推理延遲。用户可以通過 Google AI Edge Gallery、Eloquent 應用或 LiteRT-LM CLI 在 macOS 上本地運行,該 CLI 提供 OpenAI 兼容的 API 端點。此外,模型可在 Cloud Run、GKE 或 Gemini Enterprise Agent Platform 上部署。

關鍵意義

Gemma 4 12B 的無編碼器設計不僅降低了延遲和參數開銷,還使得在本地硬件上運行多步驟代理工作流成為可能。這是首個原生支持音頻的中型 Gemma 模型,為邊緣 AI 應用開闢了新的可能性。