Google DeepMind发布Gemma 4 QAT检查点:Q4_0和新移动格式降低设备端内存
Google DeepMind为Gemma 4系列发布了量化感知训练(QAT)检查点,旨在支持边缘设备和消费级GPU的本地部署。本文基于官方数据比较了BF16、Q4_0 QAT和新型移动QAT三种格式,分析其内存占用、质量保持和设备适配性。
Google DeepMind于近日发布了Gemma 4系列模型的量化感知训练(QAT)检查点,重点针对边缘设备和消费级GPU的本地部署场景。此次发布紧随Gemma 4在四月份的初始发布以及两天前12B模型的推出。
QAT的核心原理是在训练过程中模拟量化操作,使模型学会补偿精度损失,从而在量化后保持更高的质量。与标准的训练后量化(PTQ)相比,QAT能够在相同位宽下显著提升模型性能。Google声称其QAT结果在整体质量上优于标准PTQ基线,但并未公布Gemma 4 QAT的具体基准分数。作为参考,上一代Gemma 3 QAT在llama.cpp评估中将Q4_0的困惑度下降减少了54%。
本次对比聚焦于Gemma 4的E2B和E4B模型,涵盖三种格式:BF16(16位全精度基线)、Q4_0 QAT(4位通用本地格式)和新型移动QAT格式。内存数据均来自官方文档:BF16下E2B占用9.6GB,E4B为15GB;Q4_0 QAT将两者分别降至3.2GB和5GB,占用与PTQ Q4_0相同,但质量更优;移动QAT格式进一步将E2B压缩至约1GB,若去掉音频和视觉编码器仅保留文本,则低于1GB。
移动QAT格式专为移动硬件设计,采用四项关键技术:静态激活(训练时预计算缩放因子,减少设备端计算)、通道级量化(适配移动加速器架构)、针对性2位量化(仅压缩令牌生成层,推理层保持高精度)以及嵌入和KV缓存优化。这种设计在压缩存储的同时保证了核心推理能力。
在五维评估(内存占用、质量保持、解码速度、部署广度、设备端可访问性)中,Q4_0 QAT和移动QAT均获得21分(总分25分),但各自适用于不同场景:移动QAT适合手机,实现约1GB的E2B占用;Q4_0 QAT适合笔记本和消费级GPU,是实用的默认选择。BF16作为质量参考,总分仅为13分。
需要强调的是,所有内存数据均来自Google官方文档,质量评估基于Google自身声明,尚未有独立的Gemma 4 QAT质量基准发布。本文未进行本地模型运行测试,开发者在实际使用前应根据自身量化和工作负载进行验证。
目前,Gemma 4 QAT检查点已可在Hugging Face上获取,支持llama.cpp、Ollama、LM Studio、vLLM、MLX和LiteRT-LM等框架。这标志着大型语言模型向设备端部署迈出了重要一步,尤其是在移动和边缘设备上的可用性得到显著提升。