Gemma 4 QAT模型:為移動裝置和筆記型電腦最佳化壓縮效率
谷歌釋出採用量化感知訓練(QAT)的Gemma 4新檢查點,顯著降低記憶體需求,支援在邊緣裝置和消費級GPU上本地執行。自定義移動量化格式將E2B模型記憶體佔用降至1GB以下,同時保持模型質量。
谷歌今日宣佈推出Gemma 4 QAT(量化感知訓練)最佳化檢查點,這是自兩個月前釋出Gemma 4以來的又一次重要更新。此前,谷歌已引入多令牌預測(MTP)以加速推理,併發布了12B模型以填補E4B和26B MOE模型之間的空白。現在,新檢查點透過QAT技術進一步降低記憶體需求,使開發者能夠在日常邊緣裝置和消費級GPU上高效執行Gemma 4模型。
QAT透過在訓練過程中模擬量化操作,最大限度地減少模型壓縮後的質量損失。與傳統的後訓練量化(PTQ)相比,QAT在保持模型質量方面表現更優。本次釋出的檢查點包括流行的Q4_0格式以及專為移動裝置設計的新型量化格式。採用移動格式後,Gemma 4 E2B模型的記憶體佔用降至1GB,而純文本版本(不含逐層嵌入)甚至低於1GB。
為了在移動裝置上實現最佳效能,谷歌設計了一套自定義的移動量化方案。該方案包含多項創新:靜態啟用預計算,減少移動晶片的計算負載;通道級量化,使壓縮資料更適配移動加速器的設計;針對生成令牌部分的2位量化,在保持推理層高精度的同時節省儲存;以及嵌入和KV快取最佳化,顯著降低活躍記憶體佔用,使得長時間對話也不會耗盡空間。此外,由於許多場景不需要音訊和視覺編碼器,開發者可以僅部署所需模態,進一步最佳化記憶體。
新檢查點已與主流開發者工具實現整合。開發者可以在Hugging Face上下載Q4_0和移動模型權重,格式包括GGUF(適用於llama.cpp)和壓縮張量(適用於vLLM)。桌面使用者可透過llama.cpp、Ollama和LM Studio等介面輕鬆執行模型。邊緣部署可使用谷歌的輕量級LiteRT-LM執行時,或透過Transformers.js在網頁中執行。對於Apple Silicon,MLX提供了最佳化支援。此外,MTP QAT檢查點保留了MTP的速度優勢,開發者還可以使用Hugging Face Transformers和Unsloth進行微調。谷歌鼓勵開發者立即下載權重,嘗試本地執行Gemma 4。