2026-06-06 02:59 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Google DeepMind发布Gemma 4 QAT检查点：Q4_0和新移动格式降低设备端内存

Google DeepMind为Gemma 4系列发布了量化感知训练（QAT）检查点，旨在支持边缘设备和消费级GPU的本地部署。本文基于官方数据比较了BF16、Q4_0 QAT和新型移动QAT三种格式，分析其内存占用、质量保持和设备适配性。

来源MarkTechPost作者: Asif Razzaq

Google DeepMind于近日发布了Gemma 4系列模型的量化感知训练（QAT）检查点，重点针对边缘设备和消费级GPU的本地部署场景。此次发布紧随Gemma 4在四月份的初始发布以及两天前12B模型的推出。

QAT的核心原理是在训练过程中模拟量化操作，使模型学会补偿精度损失，从而在量化后保持更高的质量。与标准的训练后量化（PTQ）相比，QAT能够在相同位宽下显著提升模型性能。Google声称其QAT结果在整体质量上优于标准PTQ基线，但并未公布Gemma 4 QAT的具体基准分数。作为参考，上一代Gemma 3 QAT在llama.cpp评估中将Q4_0的困惑度下降减少了54%。

本次对比聚焦于Gemma 4的E2B和E4B模型，涵盖三种格式：BF16（16位全精度基线）、Q4_0 QAT（4位通用本地格式）和新型移动QAT格式。内存数据均来自官方文档：BF16下E2B占用9.6GB，E4B为15GB；Q4_0 QAT将两者分别降至3.2GB和5GB，占用与PTQ Q4_0相同，但质量更优；移动QAT格式进一步将E2B压缩至约1GB，若去掉音频和视觉编码器仅保留文本，则低于1GB。

移动QAT格式专为移动硬件设计，采用四项关键技术：静态激活（训练时预计算缩放因子，减少设备端计算）、通道级量化（适配移动加速器架构）、针对性2位量化（仅压缩令牌生成层，推理层保持高精度）以及嵌入和KV缓存优化。这种设计在压缩存储的同时保证了核心推理能力。

在五维评估（内存占用、质量保持、解码速度、部署广度、设备端可访问性）中，Q4_0 QAT和移动QAT均获得21分（总分25分），但各自适用于不同场景：移动QAT适合手机，实现约1GB的E2B占用；Q4_0 QAT适合笔记本和消费级GPU，是实用的默认选择。BF16作为质量参考，总分仅为13分。

需要强调的是，所有内存数据均来自Google官方文档，质量评估基于Google自身声明，尚未有独立的Gemma 4 QAT质量基准发布。本文未进行本地模型运行测试，开发者在实际使用前应根据自身量化和工作负载进行验证。

目前，Gemma 4 QAT检查点已可在Hugging Face上获取，支持llama.cpp、Ollama、LM Studio、vLLM、MLX和LiteRT-LM等框架。这标志着大型语言模型向设备端部署迈出了重要一步，尤其是在移动和边缘设备上的可用性得到显著提升。