2026-06-06 03:59 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

Google DeepMind、Gemma 4 QATチェックポイントをリリース：Q4_0と新しいモバイル形式でオンデバイスメモリを削減

Google DeepMindは、エッジデバイスとコンシューマーGPUでのローカル実行を目的として、Gemma 4ファミリー向けの量子化認識トレーニング（QAT）チェックポイントをリリースしました。本記事では、公式データに基づきBF16、Q4_0 QAT、および新しいモバイルQAT形式のメモリ使用量、品質保持、デバイス適合性を比較します。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

Q4_0 QATにより、E2BモデルはBF16の9.6GBから3.2GB、E4Bは15GBから5GBに削減。
新しいモバイルQAT形式ではE2Bが約1GB、テキストのみの場合は1GB未満。
QATは同じサイズでPTQより品質を向上させるが、Gemma 4 QATのベンチマークは未公表。
重みはHugging Faceで入手可能で、llama.cpp、Ollama、LM Studio、vLLM、MLX、LiteRT-LMをサポート。

重要な理由

このニュースが重要なのは、Q4_0 QATにより、E2BモデルはBF16の9.6GBから3.2GB、E4Bは15GBから5GBに削減ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Google DeepMindは、Gemma 4シリーズの量子化認識トレーニング（QAT）チェックポイントをリリースしました。これは、エッジデバイスやコンシューマーGPUでのローカル展開を目的としており、4月のGemma 4リリースと2日前の12Bモデルに続くものです。

QATは、トレーニング中に量子化をシミュレートすることで、モデルが精度低下を補償する方法を学習する手法です。標準的な学習後量子化（PTQ）と比較して、同じビット幅でも高い品質を維持できます。GoogleはQAT結果が標準PTQベースラインよりも全体的に高品質であると主張していますが、Gemma 4 QATの具体的なベンチマークスコアは公開していません。参考として、前世代のGemma 3 QATでは、llama.cpp評価でQ4_0のパープレキシティ低下を54%削減したとされています。

本比較では、Gemma 4のE2BおよびE4Bモデルを対象に、BF16（16ビット全精度ベースライン）、Q4_0 QAT（4ビット汎用ローカル形式）、および新しいモバイルQAT形式の3つの形式を評価しました。メモリデータはすべて公式文書からの引用です：BF16ではE2Bが9.6GB、E4Bが15GB；Q4_0 QATではそれぞれ3.2GBと5GBに削減（サイズはPTQ Q4_0と同じですが品質は向上）；モバイルQAT形式ではE2Bが約1GB、さらにオーディオとビジョンエンコーダを削除したテキスト専用モデルでは1GB未満になります。

モバイルQAT形式は、モバイルハードウェア向けに設計されており、4つの技術を採用しています：静的活性化（トレーニング中にスケーリング係数を事前計算し、デバイス上の計算を削減）、チャネル単位量子化（モバイルアクセラレータの設計に適合）、対象2ビット量子化（トークン生成層のみを圧縮し、推論層は高精度を維持）、および埋め込みとKVキャッシュの最適化。これにより、コア能力を保護しながらストレージを削減します。

5次元評価（メモリ使用量、品質保持、デコード速度、展開の広さ、デバイス上でのアクセシビリティ）において、Q4_0 QATとモバイルQATはともに21点（25点満点）を獲得しましたが、それぞれ異なるハードウェアに適しています。モバイルQATはスマートフォン向けで、E2B約1GBを実現；Q4_0 QATはノートPCやコンシューマーGPU向けの実用的なデフォルトです。BF16は品質の基準ですが、ローカル展開の選択肢としては13点と低くなっています。

注意すべき点として、メモリ数値はGoogleの公式文書に基づき、品質評価はGoogleの主張に依存しています。Gemma 4 QATの独立した品質スコアはリリース時点では公開されていません。本比較ではモデルをローカルで実行しておらず、開発者は実際の量子化とワークロードに基づいてテストする必要があります。

現在、Gemma 4 QATチェックポイントはHugging Faceで入手可能であり、llama.cpp、Ollama、LM Studio、vLLM、MLX、LiteRT-LMなどのフレームワークをサポートしています。これは、大規模言語モデルのデバイス上展開、特にモバイルおよびエッジデバイスでの可用性向上に向けた重要な一歩です。