2026-06-11站内改写2 分で読了更新: 2026-06-15

DiffusionGemma：Googleの拡散ベースのオープンモデル、より高速なテキスト生成を実現

Google DeepMindのDiffusionGemmaは、拡散を用いてテキストブロックを並列生成する実験的なオープンウェイトモデルで、従来の自己回帰モデルと比較してローカル推論が高速です。Gemma 4 26B A4B MoEアーキテクチャに基づき、品質と速度をトレードオフし、インタラクティブな編集タスクに最適です。この記事では、そのアーキテクチャ、テキスト拡散の仕組み、ベンチマーク結果、llama.cppを使用したローカル実行の手順を説明します。

ソースAnalytics Vidhya著者: Harsh Mishra

記事インテリジェンス

エンジニア上級

要点

DiffusionGemmaはテキストブロックを並列に生成・洗練し、ローカル推論のレイテンシを低減します。
双方向注意機構と256トークンのキャンバスを使用し、複数のノイズ除去ステップで生成します。
標準Gemma 4よりベンチマークはやや劣るが、速度とインタラクティブなワークフローで優れます。
開発者はllama.cppと専用ビルドを使用してローカルで実行できます。

重要な理由

このニュースが重要なのは、DiffusionGemmaはテキストブロックを並列に生成・洗練し、ローカル推論のレイテンシを低減しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Google DeepMindは、拡散ベースのテキスト生成モデル「DiffusionGemma」を発表しました。これは、従来の自己回帰モデルがトークンを逐次生成するのに対し、トークンのブロックを並列に生成・洗練することで、ローカル推論の効率を劇的に向上させます。GPUがメモリ帯域幅に制約されがちなシングルユーザー環境で特に効果を発揮します。

DiffusionGemmaはGemma 4 26B A4B MoE（混合エキスパート）アーキテクチャを基盤としており、総パラメータ数25.2B、推論時には約3.8Bが活性化されます。アーキテクチャは3つの主要コンポーネントから成ります。エンコーダーはプロンプトを処理してKVキャッシュを生成します。デコーダーは双方向注意を採用し、256トークンのキャンバス内で任意の位置が相互に影響を与えられます。そして、ブロック自己回帰的なマルチキャンバスサンプリングにより、256トークンを超える長文も処理可能です。

テキスト拡散の仕組みは画像生成に類似しています。まずキャンバスをランダムなトークンで初期化し、モデルが全位置のトークンを同時に予測します。確信度の高いトークンは固定され、低いものは再ノイズ化されて改善が繰り返されます。これにより、編集やコード補完、構造化出力など、後続の内容が先行部分に影響を与えるタスクで強い利点を発揮します。

ベンチマークでは標準Gemma 4に及ばないものの、レイテンシ面で大きな優位性があります。そのため、速度が最優先されるインタラクティブなワークフローやローカルAIアシスタントに適しています。

実際の実行手順も記事内で詳しく解説されています。llama.cppの専用ブランチからllama-diffusion-cliをビルドし、Unsloth提供のQ4_K_M量子化GGUFモデルをダウンロードします。CUDA対応環境では簡単なコマンドで動作し、--diffusion-visualオプションで拡散プロセスを可視化することも可能です。

DiffusionGemmaはまだ実験段階ですが、テキスト生成における新しいパラダイムを示しています。並列生成によるハードウェア効率の向上は、今後のローカルAIアプリケーションに革命をもたらす可能性を秘めています。