2026-06-04 02:46 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Google DeepMind 發佈 Gemma 4 12B：無需編碼器的多模態模型，原生音頻支持，可在 16GB 筆記本電腦上運行

Google DeepMind 發佈 Gemma 4 12B，這是一款 120 億參數的密集多模態模型，採用無編碼器設計，直接將視覺和音頻輸入 LLM 主幹。該模型可在 16GB RAM 的消費級筆記本電腦上本地運行，並採用 Apache 2.0 許可證。它原生支持文本、圖像、音頻和視頻，是首個具備原生音頻功能的中型 Gemma 模型。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

無編碼器架構：取消獨立的視覺（5.5億參數）和音頻（3億參數）編碼器，使用輕量級視覺嵌入器（3500萬參數）和直接音頻波形投影。
性能接近 26B MoE 模型，但內存佔用不到一半，可在 16GB 設備上運行。
原生支持音頻輸入，包括自動語音識別和説話人分離；同時支持視頻理解。
開源許可證 Apache 2.0，兼容 llama.cpp、MLX、vLLM 等多種推理棧。

為甚麼重要

這條新聞值得關注，因為無編碼器架構：取消獨立的視覺（5.5億參數）和音頻（3億參數）編碼器，使用輕量級視覺嵌入器（3500萬參數）和直接音頻波形投影。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

Google DeepMind 於 2026 年 6 月 3 日發佈了 Gemma 4 12B，這是一款 120 億參數的密集多模態模型，其最大的特點是去掉了傳統的編碼器，直接將視覺和音頻信息輸入到 LLM 的主幹網絡中。該模型可在配備 16GB RAM 的消費級筆記本電腦上本地運行，並採用 Apache 2.0 開源許可證，權重公開可下載。

模型概覽與訪問

Gemma 4 12B 是一個純解碼器 Transformer 模型，原生支持文本、圖像、音頻和視頻。與之前的中型 Gemma 模型不同，它沒有獨立的視覺或音頻編碼器。視覺處理使用一個 3500 萬參數的嵌入器，將圖像分割成 48×48 像素的塊，每個塊通過單個矩陣乘法投影到 LLM 的隱藏維度，並使用因子化的 XY 座標查找添加位置信息。音頻處理則直接將 16kHz 的原始音頻切片成 40ms 的幀（每幀 640 個值），線性投影到與文本令牌相同的嵌入空間，無需特徵提取或 conformer 層。這種統一的設計使得微調時可以一次性更新視覺、音頻和文本處理，無需共同微調多個凍結的編碼器。

性能與能力

雖然 Google DeepMind 在初始發佈中沒有公佈完整的基準測試數據，但官方指出該模型在標準基準上的表現接近 26B MoE 模型，而內存佔用不到後者的一半。演示的能力包括：原生自動語音識別（無需外部 ASR 流水線）、説話人分離、視頻理解（例如分析 5 分鐘的 Google I/O 主題演講，使用 313 幀，每秒 1 幀，每幀視覺令牌預算 70 個），以及代碼生成（使用 llama.cpp 本地構建 Gradio 應用）。在 Google 的 AI Edge Eloquent 應用中，切換到 Gemma 4 12B 後整體質量提升了 60% 以上。

本地運行

模型支持多種推理棧，包括 llama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth 和 LM Studio。還提供了一個專門的多令牌預測（MTP）起草模型以降低推理延遲。用户可以通過 Google AI Edge Gallery、Eloquent 應用或 LiteRT-LM CLI 在 macOS 上本地運行，該 CLI 提供 OpenAI 兼容的 API 端點。此外，模型可在 Cloud Run、GKE 或 Gemini Enterprise Agent Platform 上部署。

關鍵意義

Gemma 4 12B 的無編碼器設計不僅降低了延遲和參數開銷，還使得在本地硬件上運行多步驟代理工作流成為可能。這是首個原生支持音頻的中型 Gemma 模型，為邊緣 AI 應用開闢了新的可能性。