Gemma 4 QAT模型:為移動設備和筆記本電腦優化壓縮效率
谷歌發佈採用量化感知訓練(QAT)的Gemma 4新檢查點,顯著降低內存需求,支持在邊緣設備和消費級GPU上本地運行。自定義移動量化格式將E2B模型內存佔用降至1GB以下,同時保持模型質量。
谷歌今日宣佈推出Gemma 4 QAT(量化感知訓練)優化檢查點,這是自兩個月前發佈Gemma 4以來的又一次重要更新。此前,谷歌已引入多令牌預測(MTP)以加速推理,併發布了12B模型以填補E4B和26B MOE模型之間的空白。現在,新檢查點通過QAT技術進一步降低內存需求,使開發者能夠在日常邊緣設備和消費級GPU上高效運行Gemma 4模型。
QAT通過在訓練過程中模擬量化操作,最大限度地減少模型壓縮後的質量損失。與傳統的後訓練量化(PTQ)相比,QAT在保持模型質量方面表現更優。本次發佈的檢查點包括流行的Q4_0格式以及專為移動設備設計的新型量化格式。採用移動格式後,Gemma 4 E2B模型的內存佔用降至1GB,而純文本版本(不含逐層嵌入)甚至低於1GB。
為了在移動設備上實現最佳性能,谷歌設計了一套自定義的移動量化方案。該方案包含多項創新:靜態激活預計算,減少移動芯片的計算負載;通道級量化,使壓縮數據更適配移動加速器的設計;針對生成令牌部分的2位量化,在保持推理層高精度的同時節省存儲;以及嵌入和KV緩存優化,顯著降低活躍內存佔用,使得長時間對話也不會耗盡空間。此外,由於許多場景不需要音頻和視覺編碼器,開發者可以僅部署所需模態,進一步優化內存。
新檢查點已與主流開發者工具實現集成。開發者可以在Hugging Face上下載Q4_0和移動模型權重,格式包括GGUF(適用於llama.cpp)和壓縮張量(適用於vLLM)。桌面用户可通過llama.cpp、Ollama和LM Studio等界面輕鬆運行模型。邊緣部署可使用谷歌的輕量級LiteRT-LM運行時,或通過Transformers.js在網頁中運行。對於Apple Silicon,MLX提供了優化支持。此外,MTP QAT檢查點保留了MTP的速度優勢,開發者還可以使用Hugging Face Transformers和Unsloth進行微調。谷歌鼓勵開發者立即下載權重,嘗試本地運行Gemma 4。