AI News HubLIVE
站内改写2 分钟阅读

Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,原生音频支持,可在 16GB 笔记本电脑上运行

Google DeepMind 发布 Gemma 4 12B,这是一款 120 亿参数的密集多模态模型,采用无编码器设计,直接将视觉和音频输入 LLM 主干。该模型可在 16GB RAM 的消费级笔记本电脑上本地运行,并采用 Apache 2.0 许可证。它原生支持文本、图像、音频和视频,是首个具备原生音频功能的中型 Gemma 模型。

来源MarkTechPost作者: Asif Razzaq

Google DeepMind 于 2026 年 6 月 3 日发布了 Gemma 4 12B,这是一款 120 亿参数的密集多模态模型,其最大的特点是去掉了传统的编码器,直接将视觉和音频信息输入到 LLM 的主干网络中。该模型可在配备 16GB RAM 的消费级笔记本电脑上本地运行,并采用 Apache 2.0 开源许可证,权重公开可下载。

模型概览与访问

Gemma 4 12B 是一个纯解码器 Transformer 模型,原生支持文本、图像、音频和视频。与之前的中型 Gemma 模型不同,它没有独立的视觉或音频编码器。视觉处理使用一个 3500 万参数的嵌入器,将图像分割成 48×48 像素的块,每个块通过单个矩阵乘法投影到 LLM 的隐藏维度,并使用因子化的 XY 坐标查找添加位置信息。音频处理则直接将 16kHz 的原始音频切片成 40ms 的帧(每帧 640 个值),线性投影到与文本令牌相同的嵌入空间,无需特征提取或 conformer 层。这种统一的设计使得微调时可以一次性更新视觉、音频和文本处理,无需共同微调多个冻结的编码器。

性能与能力

虽然 Google DeepMind 在初始发布中没有公布完整的基准测试数据,但官方指出该模型在标准基准上的表现接近 26B MoE 模型,而内存占用不到后者的一半。演示的能力包括:原生自动语音识别(无需外部 ASR 流水线)、说话人分离、视频理解(例如分析 5 分钟的 Google I/O 主题演讲,使用 313 帧,每秒 1 帧,每帧视觉令牌预算 70 个),以及代码生成(使用 llama.cpp 本地构建 Gradio 应用)。在 Google 的 AI Edge Eloquent 应用中,切换到 Gemma 4 12B 后整体质量提升了 60% 以上。

本地运行

模型支持多种推理栈,包括 llama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth 和 LM Studio。还提供了一个专门的多令牌预测(MTP)起草模型以降低推理延迟。用户可以通过 Google AI Edge Gallery、Eloquent 应用或 LiteRT-LM CLI 在 macOS 上本地运行,该 CLI 提供 OpenAI 兼容的 API 端点。此外,模型可在 Cloud Run、GKE 或 Gemini Enterprise Agent Platform 上部署。

关键意义

Gemma 4 12B 的无编码器设计不仅降低了延迟和参数开销,还使得在本地硬件上运行多步骤代理工作流成为可能。这是首个原生支持音频的中型 Gemma 模型,为边缘 AI 应用开辟了新的可能性。