AI News HubLIVE
站内改写2 分钟阅读

Google Gemma 4 12B:架构、基准测试、访问与开发者实操指南

2026年6月3日,Google推出Gemma 4 12B Unified,一款开源多模态模型,支持文本、图像、音频和视频,拥有256K上下文窗口,专为笔记本电脑上的智能体工作流和本地部署设计。本文解析其架构、特性、基准测试对比及开发者上手指南。

来源Analytics Vidhya作者: Harsh Mishra

2026年6月3日,Google DeepMind发布了Gemma 4 12B Unified,一款面向开发者笔记本电脑的开源多模态模型。该模型能够统一处理文本、图像、音频和视频,拥有256K的上下文窗口,专为智能体工作流和本地部署优化。

Gemma 4 12B Unified是Gemma 4系列的中等规模模型,填补了边缘模型(如E4B)与大型MoE模型(26B A4B)之间的空白。它采用创新的无编码器架构,通过一个35M参数的视觉嵌入器将48×48像素的图像块直接投影到LLM隐藏空间,音频则通过将16kHz音频切片为40ms帧并线性投影实现,从而消除了传统多模态模型中独立编码器的复杂性。

该模型支持文本生成、长上下文推理(最高256K tokens)、代码补全与纠正、函数调用、视频帧理解、自动语音识别及翻译,并覆盖35种以上语言,预训练数据包含140多种语言。Google还特别强调了其在语音识别、说话人分离、视频理解和智能体推理方面的能力。

与早期Gemma 4模型相比,12B版本的主要改进包括:统一的编码器自由设计,使得音频成为中等规模模型的原生能力;上下文窗口从128K扩展至256K;以及更简单的微调流程。模型还支持多token预测(MTP)草稿器,用于推测解码以降低延迟。

开发者可以通过Hugging Face、Kaggle、Ollama、LM Studio等多种工具获取该模型。使用Ollama时,只需运行“ollama run gemma4:12b”即可下载并交互。对于图像理解,Google建议在提示中将图像内容置于文本之前,使用Python SDK即可轻松实现。

官方基准测试显示,Gemma 4 12B Unified在MMLU Pro(77.2%)、AIME 2026(77.5%)、LiveCodeBench v6(72.0%)等指标上均介于E4B和26B A4B之间,在GPQA Diamond(78.8%)和MMMU Pro(69.1%)上也表现出色。它在FLEURS语音识别任务中达到0.069的低词错误率,进一步证明了多模态能力。

总的来说,Gemma 4 12B Unified不仅是技术上的增量更新,更是Google将强大多模态AI带入开发者本地机器的蓝图。它通过单一解码器处理文本、图像和音频,为本地语音、编码和文档工作流消除了管道复杂性。技术领导者可将其部署为强大的本地开源模型,同时根据延迟、安全和合规要求进行扩展。