2026-06-04 03:46 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

Google DeepMind、エンコーダーレスのマルチモーダルモデル「Gemma 4 12B」を公開：ネイティブ音声対応、16GBノートPCで動作

Google DeepMind は Gemma 4 12B をリリースしました。これは120億パラメータの高密度マルチモーダルモデルで、従来のエンコーダーを排除し、視覚と音声を直接LLMのバックボーンに取り入れます。16GB RAMのコンシューマーノートPCでローカル実行可能で、Apache 2.0ライセンスで提供されます。テキスト、画像、音声、ビデオをネイティブに処理し、音声入力をネイティブサポートする初の中型Gemmaモデルです。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

エンコーダーレスアーキテクチャ：独立した視覚（5.5億）および音声（3億）エンコーダーを廃止し、軽量な視覚エンベッダー（3500万）と直接音声波形投影を採用。
26B MoEモデルに迫る性能を半分以下のメモリフットプリントで実現、16GBデバイスで動作。
音声入力をネイティブサポートする初の中型Gemmaであり、ASRや話者分離が可能。ビデオ理解も追加。
Apache 2.0ライセンスでオープンソース、llama.cpp、MLX、vLLMなどと互換性あり。

重要な理由

このニュースが重要なのは、エンコーダーレスアーキテクチャ：独立した視覚（5.5億）および音声（3億）エンコーダーを廃止し、軽量な視覚エンベッダー（3500万）と直接音声波形投影を採用ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Google DeepMind は2026年6月3日、Gemma 4 12Bをリリースしました。これは120億パラメータの高密度マルチモーダルモデルで、従来のエンコーダーを排除し、視覚と音声情報を直接LLMのバックボーンに取り入れる革新的な設計が特徴です。本モデルは16GBのRAMを搭載したコンシューマーノートPCでローカルに動作し、Apache 2.0ライセンスのもとで公開されています。

モデル概要とアクセス

Gemma 4 12BはデコーダーオンリーのTransformerモデルであり、テキスト、画像、音声、ビデオをネイティブに処理します。以前の中型Gemmaモデルとは異なり、独立した視覚エンコーダーや音声エンコーダーは存在しません。視覚処理には3500万パラメータのエンベッダーを使用し、画像を48×48ピクセルのパッチに分割、単一の行列乗算でLLMの隠れ次元に投影し、因子化されたXY座標ルックアップで位置情報を付加します。音声処理は16kHzの生波形を40msのフレーム（640値）にスライスし、テキストトークンと同じ埋め込み空間に線形投影します。特徴抽出やconformer層は不要です。この統一設計により、ファインチューニングでは視覚、音声、テキスト処理を一度に更新でき、複数の凍結エンコーダーを同時調整する必要はありません。

性能と機能

Google DeepMindは初期リリースで完全なベンチマーク結果を公開していませんが、公式発表によれば、本モデルは標準ベンチマークで26B MoEモデルに迫る性能を、半分以下のメモリフットプリントで達成しています。実証された機能には、ネイティブの自動音声認識（外部ASRパイプライン不要）、話者分離、ビデオ理解（例：5分のGoogle I/O基調講演を313フレーム、1FPS、フレームあたり70のビジュアルトークンバジェットで分析）、コード生成（llama.cppを使用してローカルでGradioアプリを構築）などがあります。GoogleのAI Edge Eloquentアプリでは、Gemma 4 12Bへの切り替えにより、全体的な品質が60%以上向上したと報告されています。

ローカル実行

モデルはllama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth、LM Studioを含む多くの推論スタックと互換性があります。専用のマルチトークン予測（MTP）ドラフターモデルもリリースされ、推論レイテンシを低減します。ユーザーはGoogle AI Edge Gallery、Eloquentアプリ、またはOpenAI互换APIエンドポイントを提供するLiteRT-LM CLIを介してmacOS上でローカルに実行できます。また、Cloud Run、GKE、Gemini Enterprise Agent Platform Model Gardenでもデプロイ可能です。

重要性

Gemma 4 12Bのエンコーダーレス設計は、レイテンシとパラメータオーバーヘッドを削減するだけでなく、ローカルハードウェア上でのマルチステップエージェントワークフローを可能にします。音声入力をネイティブサポートする初の中型Gemmaモデルとして、エッジAIアプリケーションに新たな可能性を開きます。