Google DeepMind、エンコーダーレスのマルチモーダルモデル「Gemma 4 12B」を公開:ネイティブ音声対応、16GBノートPCで動作
Google DeepMind は Gemma 4 12B をリリースしました。これは120億パラメータの高密度マルチモーダルモデルで、従来のエンコーダーを排除し、視覚と音声を直接LLMのバックボーンに取り入れます。16GB RAMのコンシューマーノートPCでローカル実行可能で、Apache 2.0ライセンスで提供されます。テキスト、画像、音声、ビデオをネイティブに処理し、音声入力をネイティブサポートする初の中型Gemmaモデルです。
Google DeepMind は2026年6月3日、Gemma 4 12Bをリリースしました。これは120億パラメータの高密度マルチモーダルモデルで、従来のエンコーダーを排除し、視覚と音声情報を直接LLMのバックボーンに取り入れる革新的な設計が特徴です。本モデルは16GBのRAMを搭載したコンシューマーノートPCでローカルに動作し、Apache 2.0ライセンスのもとで公開されています。
モデル概要とアクセス
Gemma 4 12BはデコーダーオンリーのTransformerモデルであり、テキスト、画像、音声、ビデオをネイティブに処理します。以前の中型Gemmaモデルとは異なり、独立した視覚エンコーダーや音声エンコーダーは存在しません。視覚処理には3500万パラメータのエンベッダーを使用し、画像を48×48ピクセルのパッチに分割、単一の行列乗算でLLMの隠れ次元に投影し、因子化されたXY座標ルックアップで位置情報を付加します。音声処理は16kHzの生波形を40msのフレーム(640値)にスライスし、テキストトークンと同じ埋め込み空間に線形投影します。特徴抽出やconformer層は不要です。この統一設計により、ファインチューニングでは視覚、音声、テキスト処理を一度に更新でき、複数の凍結エンコーダーを同時調整する必要はありません。
性能と機能
Google DeepMindは初期リリースで完全なベンチマーク結果を公開していませんが、公式発表によれば、本モデルは標準ベンチマークで26B MoEモデルに迫る性能を、半分以下のメモリフットプリントで達成しています。実証された機能には、ネイティブの自動音声認識(外部ASRパイプライン不要)、話者分離、ビデオ理解(例:5分のGoogle I/O基調講演を313フレーム、1FPS、フレームあたり70のビジュアルトークンバジェットで分析)、コード生成(llama.cppを使用してローカルでGradioアプリを構築)などがあります。GoogleのAI Edge Eloquentアプリでは、Gemma 4 12Bへの切り替えにより、全体的な品質が60%以上向上したと報告されています。
ローカル実行
モデルはllama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth、LM Studioを含む多くの推論スタックと互換性があります。専用のマルチトークン予測(MTP)ドラフターモデルもリリースされ、推論レイテンシを低減します。ユーザーはGoogle AI Edge Gallery、Eloquentアプリ、またはOpenAI互换APIエンドポイントを提供するLiteRT-LM CLIを介してmacOS上でローカルに実行できます。また、Cloud Run、GKE、Gemini Enterprise Agent Platform Model Gardenでもデプロイ可能です。
重要性
Gemma 4 12Bのエンコーダーレス設計は、レイテンシとパラメータオーバーヘッドを削減するだけでなく、ローカルハードウェア上でのマルチステップエージェントワークフローを可能にします。音声入力をネイティブサポートする初の中型Gemmaモデルとして、エッジAIアプリケーションに新たな可能性を開きます。