2026-06-04 02:46 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，原生音频支持，可在 16GB 笔记本电脑上运行

Google DeepMind 发布 Gemma 4 12B，这是一款 120 亿参数的密集多模态模型，采用无编码器设计，直接将视觉和音频输入 LLM 主干。该模型可在 16GB RAM 的消费级笔记本电脑上本地运行，并采用 Apache 2.0 许可证。它原生支持文本、图像、音频和视频，是首个具备原生音频功能的中型 Gemma 模型。

来源MarkTechPost作者: Asif Razzaq

文章情报

工程师进阶

要点

无编码器架构：取消独立的视觉（5.5亿参数）和音频（3亿参数）编码器，使用轻量级视觉嵌入器（3500万参数）和直接音频波形投影。
性能接近 26B MoE 模型，但内存占用不到一半，可在 16GB 设备上运行。
原生支持音频输入，包括自动语音识别和说话人分离；同时支持视频理解。
开源许可证 Apache 2.0，兼容 llama.cpp、MLX、vLLM 等多种推理栈。

为什么重要

这条新闻值得关注，因为无编码器架构：取消独立的视觉（5.5亿参数）和音频（3亿参数）编码器，使用轻量级视觉嵌入器（3500万参数）和直接音频波形投影。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

Google DeepMind 于 2026 年 6 月 3 日发布了 Gemma 4 12B，这是一款 120 亿参数的密集多模态模型，其最大的特点是去掉了传统的编码器，直接将视觉和音频信息输入到 LLM 的主干网络中。该模型可在配备 16GB RAM 的消费级笔记本电脑上本地运行，并采用 Apache 2.0 开源许可证，权重公开可下载。

模型概览与访问

Gemma 4 12B 是一个纯解码器 Transformer 模型，原生支持文本、图像、音频和视频。与之前的中型 Gemma 模型不同，它没有独立的视觉或音频编码器。视觉处理使用一个 3500 万参数的嵌入器，将图像分割成 48×48 像素的块，每个块通过单个矩阵乘法投影到 LLM 的隐藏维度，并使用因子化的 XY 坐标查找添加位置信息。音频处理则直接将 16kHz 的原始音频切片成 40ms 的帧（每帧 640 个值），线性投影到与文本令牌相同的嵌入空间，无需特征提取或 conformer 层。这种统一的设计使得微调时可以一次性更新视觉、音频和文本处理，无需共同微调多个冻结的编码器。

性能与能力

虽然 Google DeepMind 在初始发布中没有公布完整的基准测试数据，但官方指出该模型在标准基准上的表现接近 26B MoE 模型，而内存占用不到后者的一半。演示的能力包括：原生自动语音识别（无需外部 ASR 流水线）、说话人分离、视频理解（例如分析 5 分钟的 Google I/O 主题演讲，使用 313 帧，每秒 1 帧，每帧视觉令牌预算 70 个），以及代码生成（使用 llama.cpp 本地构建 Gradio 应用）。在 Google 的 AI Edge Eloquent 应用中，切换到 Gemma 4 12B 后整体质量提升了 60% 以上。

本地运行

模型支持多种推理栈，包括 llama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth 和 LM Studio。还提供了一个专门的多令牌预测（MTP）起草模型以降低推理延迟。用户可以通过 Google AI Edge Gallery、Eloquent 应用或 LiteRT-LM CLI 在 macOS 上本地运行，该 CLI 提供 OpenAI 兼容的 API 端点。此外，模型可在 Cloud Run、GKE 或 Gemini Enterprise Agent Platform 上部署。

关键意义

Gemma 4 12B 的无编码器设计不仅降低了延迟和参数开销，还使得在本地硬件上运行多步骤代理工作流成为可能。这是首个原生支持音频的中型 Gemma 模型，为边缘 AI 应用开辟了新的可能性。