AI News HubLIVE
站内改写1 分钟阅读

Gemma 4 QAT模型:为移动设备和笔记本电脑优化压缩效率

谷歌发布采用量化感知训练(QAT)的Gemma 4新检查点,显著降低内存需求,支持在边缘设备和消费级GPU上本地运行。自定义移动量化格式将E2B模型内存占用降至1GB以下,同时保持模型质量。

来源Hacker News AI作者: theanonymousone

谷歌今日宣布推出Gemma 4 QAT(量化感知训练)优化检查点,这是自两个月前发布Gemma 4以来的又一次重要更新。此前,谷歌已引入多令牌预测(MTP)以加速推理,并发布了12B模型以填补E4B和26B MOE模型之间的空白。现在,新检查点通过QAT技术进一步降低内存需求,使开发者能够在日常边缘设备和消费级GPU上高效运行Gemma 4模型。

QAT通过在训练过程中模拟量化操作,最大限度地减少模型压缩后的质量损失。与传统的后训练量化(PTQ)相比,QAT在保持模型质量方面表现更优。本次发布的检查点包括流行的Q4_0格式以及专为移动设备设计的新型量化格式。采用移动格式后,Gemma 4 E2B模型的内存占用降至1GB,而纯文本版本(不含逐层嵌入)甚至低于1GB。

为了在移动设备上实现最佳性能,谷歌设计了一套自定义的移动量化方案。该方案包含多项创新:静态激活预计算,减少移动芯片的计算负载;通道级量化,使压缩数据更适配移动加速器的设计;针对生成令牌部分的2位量化,在保持推理层高精度的同时节省存储;以及嵌入和KV缓存优化,显著降低活跃内存占用,使得长时间对话也不会耗尽空间。此外,由于许多场景不需要音频和视觉编码器,开发者可以仅部署所需模态,进一步优化内存。

新检查点已与主流开发者工具实现集成。开发者可以在Hugging Face上下载Q4_0和移动模型权重,格式包括GGUF(适用于llama.cpp)和压缩张量(适用于vLLM)。桌面用户可通过llama.cpp、Ollama和LM Studio等界面轻松运行模型。边缘部署可使用谷歌的轻量级LiteRT-LM运行时,或通过Transformers.js在网页中运行。对于Apple Silicon,MLX提供了优化支持。此外,MTP QAT检查点保留了MTP的速度优势,开发者还可以使用Hugging Face Transformers和Unsloth进行微调。谷歌鼓励开发者立即下载权重,尝试本地运行Gemma 4。