AI News HubLIVE
站内改写4 分で読了

Google AI、DiffusionGemmaを公開:26B MoEオープンモデル、テキスト拡散で最大4倍高速生成

DiffusionGemmaはGoogle DeepMindが開発した実験的なオープンテキスト生成モデルで、標準的な自己回帰デコードの代わりにテキスト拡散を採用し、専用GPU上で最大4倍の生成速度を実現します。26BパラメータのMoEモデル(推論時は3.8Bのみ活性化)で、Gemma 4をベースに構築され、マルチモーダル入力(テキスト、画像、動画)をサポートし、256Kのコンテキストウィンドウ、140以上の言語に対応、Apache 2.0ライセンスで公開されています。

ソースMarkTechPost著者: Asif Razzaq

Google AIチーム(Google DeepMind研究者を含む)は、実験的なオープンテキスト生成モデルDiffusionGemmaを公開しました。このモデルは標準的な自己回帰デコードの代わりにテキスト拡散を採用し、寛容なApache 2.0ライセンスで提供されます。Googleは、速度が重要なインタラクティブなローカルワークフロー(インライン編集、迅速な反復、非線形テキスト構造の生成など)を検討する開発者や研究者向けに位置づけています。

現在のほとんどの言語モデルは自己回帰型で、左から右にトークンを一つずつ生成し、各トークンは前のトークンに依存します。DiffusionGemmaは異なります。テキストのブロック全体を並列に同時生成します。専用GPUでは、これにより最大4倍の生成高速化を実現します。

DiffusionGemmaとは

DiffusionGemmaは260億パラメータの混合専門家(MoE)モデルで、推論時には38億パラメータのみを活性化します。Gemma 4バックボーン(具体的には26B-A4Bアーキテクチャ)をベースに、拡散ヘッドを統合しています。モデルはマルチモーダルで、テキスト、画像、動画のインターリーブ入力を処理し、テキスト出力を生成します。コンテキストウィンドウは256Kトークン、140以上の言語をサポートします。量子化すると18GBのVRAMに収まり、ハイエンドコンシューマーGPUの制限内に収まります。単一のNVIDIA H100では毎秒1000トークン以上、NVIDIA GeForce RTX 5090では毎秒700トークン以上を達成します。

Googleはトレードオフについて明確に述べています。DiffusionGemmaは速度と並列レイアウト生成を優先しますが、全体的な出力品質は標準のGemma 4より低くなっています。最高品質の生成作業には、Googleは依然として自己回帰型のGemma 4を推奨します。

テキスト拡散の仕組み

テキスト拡散は、AI画像生成器の核となるアイデアを借用しています。それらのモデルは視覚的なノイズから始めて反復的に精緻化します。DiffusionGemmaは同じパターンをテキスト生成に適用します。

プロセスは3つの概念段階で実行されます。まず、モデルはランダムなプレースホルダートークンのキャンバスから始めます。次に、そのキャンバスを複数回通過し、信頼度の高いトークンを固定してコンテキストとして使用します。最後に、テキストが最終出力に収束します。Googleはこの中核メカニズムを「均一状態拡散(Uniform State Diffusion)」と呼び、信頼度の高いトークンがデノイジング中に隣接位置の解決を助け、全シーケンスが数回のパスで焦点を結びます。

実際には、モデルは256トークンのキャンバスを並列にデノイズし、フォワードパスごとに約15~20トークンを確定します。この並列性がスループット向上の鍵です。モデルはデノイジング中に双方向注意を使用し、キャンバス上のすべてのトークンが他のすべてのトークンに注意を向けることができます。これは、以前のトークンにしか遡れない自己回帰モデルとは大きく異なります。

双方向コンテキストにより、リアルタイムの自己修正が可能になります。トークンの信頼度が低下した場合、サンプラーはそれを再ノイズ化し、後のパスで置き換えることができます。自己回帰モデルではトークンが一度確定すると変更できないため、これは不可能です。

アーキテクチャ

技術的な進歩はハードウェアの利用効率にあります。ローカルGPU推論では、主なボトルネックはメモリ帯域幅です。自己回帰モデルはトークンごとにメモリから重みを繰り返しロードします。シングルユーザーサービングでは、GPUはほとんどの時間を待機に費やします。

DiffusionGemmaはボトルネックをメモリ帯域幅から計算に移行します。256トークンのキャンバスを並列に草稿作成と精緻化を行い、アイドル状態のテンソルコアに大規模な並列ワークロードを提供します。

推論中、モデルは2つの注意モードを交互に使用します。プリフィルは因果注意を使用してプロンプトを取り込みKVキャッシュを書き込み、デノイジングは双方向注意を使用してキャンバスを精緻化します。より長い出力には、DiffusionGemmaはブロック自己回帰拡散(Block Autoregressive Diffusion)を使用します。256トークンブロックが完全にデノイズされたら、KVキャッシュにコミットし、以前の履歴に基づいて新しいキャンバスを開始します。これにより、並列ブロック速度と逐次自己回帰安定性が組み合わされます。

アーキテクチャはGemma 4 26B A4Bと同じバックボーンを共有しており、開発者は主にデノイジングステップを実装するだけでよく、既存のサービングフレームワークへの統合が容易になります。

明確な例として、Googleの開発者ガイドにある数独のデモがあります。自己回帰モデルは厳格な多変数制約パズルに苦戦しますが、ベースのDiffusionGemmaモデルは数独パズルの約0%しか解けません。簡単なJAX教師ありファインチューニングレシピの後、正解率は80%に上昇し、ファインチューニングされたモデルはより早く停止し、推論ステップを削減します。

ユースケース

DiffusionGemmaは特定のワークロードを対象としており、一般的なプロダクション品質向けではありません。Googleとエコシステムパートナーは、いくつかの実用的なアプリケーションを強調しています。

インライン編集とコード補完:双方向注意は非線形テキスト構造に適しています。

迅速な反復:ローカルレイテンシが低く、インタラクティブなシングルユーザー開発ループをサポートします。

長コンテキスト文書分析:256Kウィンドウは大規模入力処理をサポートします。

OCRと文書解析:マルチモーダル入力で画像やスキャン文書を処理します。

コード生成、ツール呼び出し、エージェントワークフロー:Unslothはこれらをサポートタスクとして挙げています。

制約付き生成:数独、数学グラフ、アミノ酸配列は並列注意の恩恵を受けます。

一つ制限があります。高速化はローカルで低並列な推論向けに設計されています。高QPSクラウドサービングでは、自己回帰モデルは計算を効率的に飽和させ、並列デコードの利点は減少し、サービングコストが増加する可能性があります。

DiffusionGemma vs 標準Gemma 4

| 属性 | DiffusionGemma (26B-A4B) | 標準Gemma 4 (26B-A4B) | | --- | --- | --- | | 生成方法 | 離散テキスト拡散(並列) | 自己回帰(トークン単位) | | デコードボトルネック | 計算律速 | メモリ帯域律速 | | 並列単位 | パスあたり256トークンキャンバス | ステップあたり1トークン | | デコード中の注意 | 双方向 | 因果(後方のみ) | | 自己修正 | 可能(再ノイズ化により) | 不可(トークンは一度コミットされると固定) | | 専用GPU速度 | 最大4倍高速 | ベースライン | | H100スループット | 1000+トークン/秒 | 低い(ベースライン) | | RTX 5090スループット | 700+トークン/秒 | 低い(ベースライン) | | 出力品質 | Gemma 4より低い | 高い(プロダクション推奨) | | 最適用途 | ローカル、低並列、インタラクティブ | 高品質、高QPSクラウドサービス | | ライセンス | Apache 2.0 | Gemma利用規約 |

重要なポイント

  • DiffusionGemmaは26B MoEオープンモデル(3.8B活性化)で、トークン単位ではなく並列拡散によりテキストを生成します。
  • 専用GPUで最大4倍高速動作:H100で1000+トークン/秒、RTX 5090で700+トークン/秒。
  • 256トークンキャンバス上の双方向注意により、自己回帰モデルとは異なり、リアルタイム自己修正が可能です。
  • 量子化時に18GB VRAMに収まり、vLLM、Transformers、MLX、Unslothで初日からサポートされます。
  • 実験的なモデルであり、標準Gemma 4より品質が低いため、GoogleはプロダクションにはGemma 4を推奨します。