2026-06-04 02:46 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Google DeepMind 釋出 Gemma 4 12B：無需編碼器的多模態模型，原生音訊支援，可在 16GB 筆記型電腦上執行

Google DeepMind 釋出 Gemma 4 12B，這是一款 120 億引數的密集多模態模型，採用無編碼器設計，直接將視覺和音訊輸入 LLM 主幹。該模型可在 16GB RAM 的消費級筆記型電腦上本地執行，並採用 Apache 2.0 許可證。它原生支援文本、影像、音訊和影片，是首個具備原生音訊功能的中型 Gemma 模型。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

無編碼器架構：取消獨立的視覺（5.5億引數）和音訊（3億引數）編碼器，使用輕量級視覺嵌入器（3500萬引數）和直接音訊波形投影。
效能接近 26B MoE 模型，但記憶體佔用不到一半，可在 16GB 裝置上執行。
原生支援音訊輸入，包括自動語音識別和說話人分離；同時支援影片理解。
開源許可證 Apache 2.0，相容 llama.cpp、MLX、vLLM 等多種推理棧。

為什麼重要

這條新聞值得關注，因為無編碼器架構：取消獨立的視覺（5.5億引數）和音訊（3億引數）編碼器，使用輕量級視覺嵌入器（3500萬引數）和直接音訊波形投影。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

Google DeepMind 於 2026 年 6 月 3 日釋出了 Gemma 4 12B，這是一款 120 億引數的密集多模態模型，其最大的特點是去掉了傳統的編碼器，直接將視覺和音訊資訊輸入到 LLM 的主幹網路中。該模型可在配備 16GB RAM 的消費級筆記型電腦上本地執行，並採用 Apache 2.0 開源許可證，權重公開可下載。

模型概覽與訪問

Gemma 4 12B 是一個純解碼器 Transformer 模型，原生支援文本、影像、音訊和影片。與之前的中型 Gemma 模型不同，它沒有獨立的視覺或音訊編碼器。視覺處理使用一個 3500 萬引數的嵌入器，將影像分割成 48×48 畫素的塊，每個塊透過單個矩陣乘法投影到 LLM 的隱藏維度，並使用因子化的 XY 座標查詢新增位置資訊。音訊處理則直接將 16kHz 的原始音訊切片成 40ms 的幀（每幀 640 個值），線性投影到與文本令牌相同的嵌入空間，無需特徵提取或 conformer 層。這種統一的設計使得微調時可以一次性更新視覺、音訊和文本處理，無需共同微調多個凍結的編碼器。

效能與能力

雖然 Google DeepMind 在初始釋出中沒有公佈完整的基準測試資料，但官方指出該模型在標準基準上的表現接近 26B MoE 模型，而記憶體佔用不到後者的一半。演示的能力包括：原生自動語音識別（無需外部 ASR 流水線）、說話人分離、影片理解（例如分析 5 分鐘的 Google I/O 主題演講，使用 313 幀，每秒 1 幀，每幀視覺令牌預算 70 個），以及程式碼生成（使用 llama.cpp 本地構建 Gradio 應用）。在 Google 的 AI Edge Eloquent 應用中，切換到 Gemma 4 12B 後整體質量提升了 60% 以上。

本地執行

模型支援多種推理棧，包括 llama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth 和 LM Studio。還提供了一個專門的多令牌預測（MTP）起草模型以降低推理延遲。使用者可以透過 Google AI Edge Gallery、Eloquent 應用或 LiteRT-LM CLI 在 macOS 上本地執行，該 CLI 提供 OpenAI 相容的 API 端點。此外，模型可在 Cloud Run、GKE 或 Gemini Enterprise Agent Platform 上部署。

關鍵意義

Gemma 4 12B 的無編碼器設計不僅降低了延遲和引數開銷，還使得在本地硬體上執行多步驟代理工作流成為可能。這是首個原生支援音訊的中型 Gemma 模型，為邊緣 AI 應用開闢了新的可能性。