2026-06-06 00:18 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Gemma 4 QAT模型：為移動裝置和筆記型電腦最佳化壓縮效率

谷歌釋出採用量化感知訓練（QAT）的Gemma 4新檢查點，顯著降低記憶體需求，支援在邊緣裝置和消費級GPU上本地執行。自定義移動量化格式將E2B模型記憶體佔用降至1GB以下，同時保持模型質量。

來源Hacker News AI作者: theanonymousone

谷歌今日宣佈推出Gemma 4 QAT（量化感知訓練）最佳化檢查點，這是自兩個月前釋出Gemma 4以來的又一次重要更新。此前，谷歌已引入多令牌預測（MTP）以加速推理，併發布了12B模型以填補E4B和26B MOE模型之間的空白。現在，新檢查點透過QAT技術進一步降低記憶體需求，使開發者能夠在日常邊緣裝置和消費級GPU上高效執行Gemma 4模型。

QAT透過在訓練過程中模擬量化操作，最大限度地減少模型壓縮後的質量損失。與傳統的後訓練量化（PTQ）相比，QAT在保持模型質量方面表現更優。本次釋出的檢查點包括流行的Q4_0格式以及專為移動裝置設計的新型量化格式。採用移動格式後，Gemma 4 E2B模型的記憶體佔用降至1GB，而純文本版本（不含逐層嵌入）甚至低於1GB。

為了在移動裝置上實現最佳效能，谷歌設計了一套自定義的移動量化方案。該方案包含多項創新：靜態啟用預計算，減少移動晶片的計算負載；通道級量化，使壓縮資料更適配移動加速器的設計；針對生成令牌部分的2位量化，在保持推理層高精度的同時節省儲存；以及嵌入和KV快取最佳化，顯著降低活躍記憶體佔用，使得長時間對話也不會耗盡空間。此外，由於許多場景不需要音訊和視覺編碼器，開發者可以僅部署所需模態，進一步最佳化記憶體。

新檢查點已與主流開發者工具實現整合。開發者可以在Hugging Face上下載Q4_0和移動模型權重，格式包括GGUF（適用於llama.cpp）和壓縮張量（適用於vLLM）。桌面使用者可透過llama.cpp、Ollama和LM Studio等介面輕鬆執行模型。邊緣部署可使用谷歌的輕量級LiteRT-LM執行時，或透過Transformers.js在網頁中執行。對於Apple Silicon，MLX提供了最佳化支援。此外，MTP QAT檢查點保留了MTP的速度優勢，開發者還可以使用Hugging Face Transformers和Unsloth進行微調。谷歌鼓勵開發者立即下載權重，嘗試本地執行Gemma 4。