2026-06-05 18:55 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Google Gemma 4 12B：架构、基准测试、访问与开发者实操指南

2026年6月3日，Google推出Gemma 4 12B Unified，一款开源多模态模型，支持文本、图像、音频和视频，拥有256K上下文窗口，专为笔记本电脑上的智能体工作流和本地部署设计。本文解析其架构、特性、基准测试对比及开发者上手指南。

来源Analytics Vidhya作者: Harsh Mishra

文章情报

工程师进阶

要点

Gemma 4 12B Unified采用无编码器架构，直接投影图像和音频到LLM嵌入空间，简化多模态处理。
支持256K上下文、函数调用、35种以上语言、语音识别和视频理解，可在Ollama等本地工具运行。
基准测试显示其性能介于4B边缘模型和26B MoE模型之间，为本地推理和编码提供实用中间选择。
该模型填补了边缘设备与高端工作站之间的部署空白，是Google推动本地AI的关键一步。

为什么重要

这条新闻值得关注，因为Gemma 4 12B Unified采用无编码器架构，直接投影图像和音频到LLM嵌入空间，简化多模态处理。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

2026年6月3日，Google DeepMind发布了Gemma 4 12B Unified，一款面向开发者笔记本电脑的开源多模态模型。该模型能够统一处理文本、图像、音频和视频，拥有256K的上下文窗口，专为智能体工作流和本地部署优化。

Gemma 4 12B Unified是Gemma 4系列的中等规模模型，填补了边缘模型（如E4B）与大型MoE模型（26B A4B）之间的空白。它采用创新的无编码器架构，通过一个35M参数的视觉嵌入器将48×48像素的图像块直接投影到LLM隐藏空间，音频则通过将16kHz音频切片为40ms帧并线性投影实现，从而消除了传统多模态模型中独立编码器的复杂性。

该模型支持文本生成、长上下文推理（最高256K tokens）、代码补全与纠正、函数调用、视频帧理解、自动语音识别及翻译，并覆盖35种以上语言，预训练数据包含140多种语言。Google还特别强调了其在语音识别、说话人分离、视频理解和智能体推理方面的能力。

与早期Gemma 4模型相比，12B版本的主要改进包括：统一的编码器自由设计，使得音频成为中等规模模型的原生能力；上下文窗口从128K扩展至256K；以及更简单的微调流程。模型还支持多token预测（MTP）草稿器，用于推测解码以降低延迟。

开发者可以通过Hugging Face、Kaggle、Ollama、LM Studio等多种工具获取该模型。使用Ollama时，只需运行“ollama run gemma4:12b”即可下载并交互。对于图像理解，Google建议在提示中将图像内容置于文本之前，使用Python SDK即可轻松实现。

官方基准测试显示，Gemma 4 12B Unified在MMLU Pro（77.2%）、AIME 2026（77.5%）、LiveCodeBench v6（72.0%）等指标上均介于E4B和26B A4B之间，在GPQA Diamond（78.8%）和MMMU Pro（69.1%）上也表现出色。它在FLEURS语音识别任务中达到0.069的低词错误率，进一步证明了多模态能力。

总的来说，Gemma 4 12B Unified不仅是技术上的增量更新，更是Google将强大多模态AI带入开发者本地机器的蓝图。它通过单一解码器处理文本、图像和音频，为本地语音、编码和文档工作流消除了管道复杂性。技术领导者可将其部署为强大的本地开源模型，同时根据延迟、安全和合规要求进行扩展。