NVIDIA、Google DeepMindのDiffusionGemmaをローカルAI向けに高速化
Google DeepMindが、高速テキスト生成のための実験的なオープンモデルDiffusionGemmaをリリース。NVIDIAはこれを最適化し、GeForce RTX、RTX PRO、DGX Spark上でさらに高速に動作し、ローカルで最大1000 tokens/secを達成。
本日、Google DeepMindはDiffusionGemmaを公開しました。これは非常に高速なテキスト生成を実現する実験的なオープンモデルです。NVIDIAは、GeForce RTX GPU、RTX PROプラットフォーム、DGX Sparkシステム上でさらに高速に動作するよう最適化し、ローカルPCからクラウドまで幅広く対応します。
従来のテキスト生成が1単語ずつ逐次的に行われるのに対し、DiffusionGemmaは複数の単語を並列に生成し、テキストブロック全体を一度に出力します。これにより、開発者や研究者、AI愛好家が日常的に実行するシングルユーザーワークロード向けに、低レイテンシの新たなフロンティアを開拓します。
主な特徴は以下の通りです。
- 並列生成:1ステップあたり最大256トークンを並列でノイズ除去。
- Gemma 4ベース:260億パラメータのMixture-of-Expertsモデルで、1ステップあたり38億パラメータのみ活性化。拡散ヘッドとGoogleのGemma 4アーキテクチャを組み合わせ。
- 最大4倍の高速化:ローカルハードウェア上で、通常は遅延が発生するシングルユーザー生成を高速化。
- オープンでローカル:Apache 2.0ライセンスのオープンウェイトで、RTXとDGX Spark上で完全動作。クラウド不要、トークン課金なし。Hugging Face Transformers、vLLM、Unslothで即日サポート。
異なるテキスト生成方式 現在広く使われている大規模言語モデルのほとんどは自己回帰型であり、1トークンずつ生成し、各単語は前の単語に依存します。この逐次処理が、対話型AIがタイピングしているような感覚を与えます。
DiffusionGemmaは異なるアプローチを採用。Gemma 4 26B Mixture-of-Expertsアーキテクチャを基盤に、拡散モデルが画像を生成するのと同様に、ノイズから開始してテキストブロック全体を一度に精錬します。各ステップでは、単一のトークンを出力して次の計算を待つのではなく、最大256トークンを並列でノイズ除去します。
その結果、モデルは逐次的ではなくブロック単位で思考します。レイテンシに敏感なシングルユーザー作業(対話型チャット、エージェントループ、計画・実行を行うオンデバイスアシスタントなど)では、この並列性により、開発者の思考と反復のペースに追いつく応答速度が実現します。
NVIDIA GPU上でのDiffusionGemmaの性能 1トークンずつ生成することは本質的にメモリバウンドな問題であり、従来のLLMはほとんどの時間をメモリ帯域幅の待機に費やし、演算にはほとんど使われません。その結果、多くの計算リソースが未活用のままです。
拡散モデルはこの方程式を逆転させます。完全な256トークンブロックを並列にトランスフォーマーに通すことは、計算バウンドなワークロードであり、まさにNVIDIA GPUの得意分野です。NVIDIA Tensor Coreが高密度な並列演算を加速し、CUDAソフトウェアスタックにより、モデルは特別なチューニングなしで初日から効率的に動作します。要するに、モデルの設計はGPUの強みを直接活かしています。
その結果は数値に表れています。DiffusionGemmaは、単一のNVIDIA H100 Tensor Core GPUで1000トークン/秒、NVIDIA DGX Sparkで150トークン/秒、NVIDIA DGX Stationで最大2000トークン/秒を達成します。これは、同等の自己回帰モデルが同じシングルユーザー環境で動作する場合と比較して、約4倍の高速化です。
このアドバンテージはNVIDIAの全ラインナップで発揮され、以下の環境で動作します。
- ローカルのNVIDIA DGX Spark デスクトップパーソナルAIスーパーコンピュータ(NVIDIA GB10 Grace Blackwell Superchip搭載、128GB統合メモリ)。NVIDIA AIソフトウェアスタックがプリインストールされており、プロトタイピング、ファインチューニング、完全ローカルのエージェントワークフローに最適。
- NVIDIA RTX PRO 6000ワークステーション。開発者、研究者、AIプロフェッショナルに、プロフェッショナルワークフローの一環としてローカル低レイテンシ生成とエージェントループを実行するヘッドルームを提供。
- DGX Station。最大2000トークン/秒のローカル高速推論を実現し、748GBのコヒーレントメモリで低レイテンシテキスト生成とエージェントループをサポート。
- GeForce RTX GPU(llama.cppサポートは近日対応予定)。
ローカルで始める モデルのテストとプロトタイピングを最速で開始する方法は、Hugging Face Transformersを使用することです。これにより、GeForce RTX 5090またはDGX Spark上でDiffusionGemmaをすぐに実行できます。より高スループットの推論には、vLLMが即日サービングサポートを提供します。
特定のタスクやドメインにモデルを適応させるには、UnslothとNVIDIA NeMoフレームワークを通じてファインチューニングが可能で、DGX Sparkプレイブックが用意されており、ローカル環境を迅速にセットアップできます。DGX Spark、RTX PRO、DGX Station向けのvLLMプレイブックをご覧ください。
Hugging FaceでDiffusionGemmaを試すか、build.nvidia.comでNVIDIAホストのAPIを無料でテストできます。
アーキテクチャとローカルデプロイメントの詳細については、NVIDIA技術ブログとGoogle DeepMindの発表をお読みください。
#ICYMI:RTX AI Garage最新情報
- NVIDIA研究者はSANA-WMをリリース。これは、単一の画像とカメラパスから、正確な6自由度制御で1分間の720pビデオを生成するオープンソースのワールドモデルです。26億パラメータの軽量版は、単一のNVIDIA GeForce RTX 5090 GPU上でNVFP4形式を使用し、34秒で完全な60秒クリップを生成します。これは、同等のオープンモデルと比較して最大36倍のスループット向上です。論文を読む。
- Windowsエージェント構築用のツールセットが完全に整いました。NVIDIAとMicrosoftは、ネイティブWindows向けのターンキーエージェントサンドボックス(Microsoft eXecution ContainersとNVIDIA OpenShellランタイム)を展開。これにより、最大2倍のエージェント推論高速化とHermes AgentのネイティブWindowsサポートを実現。
- DGX Sparkは、開梱からエージェント実行まで数分で完了。合理化されたNVIDIA NemoClawインストールにより、開発者はすぐにローカルエージェントを稼働でき、Qwen3.6-35BはvLLM上で最大2.6倍高速に動作。また、NVIDIA Syncの新しいクラスタアシスタントは、最大4台のDGX Sparkユニットを1つの512GBプールに接続し、約4000億パラメータのモデルを実行可能。
- Facebook、Instagram、TikTok、XでRTX Sparkをフォローし、RTX Sparkニュースレターを購読して最新情報を入手してください。
ソフトウェア製品情報に関する通知をご覧ください。