2026-06-06 00:18 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Gemma 4 QAT模型：为移动设备和笔记本电脑优化压缩效率

谷歌发布采用量化感知训练（QAT）的Gemma 4新检查点，显著降低内存需求，支持在边缘设备和消费级GPU上本地运行。自定义移动量化格式将E2B模型内存占用降至1GB以下，同时保持模型质量。

来源Hacker News AI作者: theanonymousone

谷歌今日宣布推出Gemma 4 QAT（量化感知训练）优化检查点，这是自两个月前发布Gemma 4以来的又一次重要更新。此前，谷歌已引入多令牌预测（MTP）以加速推理，并发布了12B模型以填补E4B和26B MOE模型之间的空白。现在，新检查点通过QAT技术进一步降低内存需求，使开发者能够在日常边缘设备和消费级GPU上高效运行Gemma 4模型。

QAT通过在训练过程中模拟量化操作，最大限度地减少模型压缩后的质量损失。与传统的后训练量化（PTQ）相比，QAT在保持模型质量方面表现更优。本次发布的检查点包括流行的Q4_0格式以及专为移动设备设计的新型量化格式。采用移动格式后，Gemma 4 E2B模型的内存占用降至1GB，而纯文本版本（不含逐层嵌入）甚至低于1GB。

为了在移动设备上实现最佳性能，谷歌设计了一套自定义的移动量化方案。该方案包含多项创新：静态激活预计算，减少移动芯片的计算负载；通道级量化，使压缩数据更适配移动加速器的设计；针对生成令牌部分的2位量化，在保持推理层高精度的同时节省存储；以及嵌入和KV缓存优化，显著降低活跃内存占用，使得长时间对话也不会耗尽空间。此外，由于许多场景不需要音频和视觉编码器，开发者可以仅部署所需模态，进一步优化内存。

新检查点已与主流开发者工具实现集成。开发者可以在Hugging Face上下载Q4_0和移动模型权重，格式包括GGUF（适用于llama.cpp）和压缩张量（适用于vLLM）。桌面用户可通过llama.cpp、Ollama和LM Studio等界面轻松运行模型。边缘部署可使用谷歌的轻量级LiteRT-LM运行时，或通过Transformers.js在网页中运行。对于Apple Silicon，MLX提供了优化支持。此外，MTP QAT检查点保留了MTP的速度优势，开发者还可以使用Hugging Face Transformers和Unsloth进行微调。谷歌鼓励开发者立即下载权重，尝试本地运行Gemma 4。