2026-06-10站内改写3 分钟阅读更新: 2026-06-12

NVIDIA加速谷歌DeepMind的DiffusionGemma，实现本地AI

谷歌DeepMind发布了DiﬀusionGemma实验性开源模型，通过并行生成文本而非逐词预测，大幅提升速度。NVIDIA对其进行了优化，使其在GeForce RTX、RTX PRO和DGX Spark等平台上运行更快，本地即可实现高达1000 tokens/sec的推理速度。

来源NVIDIA Blog作者: Michael Fukuyama

今日，谷歌DeepMind发布了DiﬀusionGemma——一款实验性的开源模型，专为超快文本生成而设计。NVIDIA已对该模型进行优化，使其能在NVIDIA GeForce RTX GPU、NVIDIA RTX PRO平台以及NVIDIA DGX Spark系统上运行得更快，覆盖从本地PC到云端的环境。

与逐词生成文本的传统方式不同，DiﬀusionGemma能够并行生成多个单词，一次性输出整块文本，为开发者、研究人员和AI爱好者日常运行的单一用户工作负载开辟了新的低延迟前沿。

该模型的核心特性包括：

并行生成：每步最多对256个token进行去噪，而非逐个预测。
基于Gemma 4：DiﬀusionGemma建立在Gemma 4之上，这是一个260亿参数的混合专家模型，每步仅激活38亿参数，将扩散头与谷歌的Gemma 4架构相结合。
性能提升高达4倍：这一提升意味着在本地硬件上实现快速文本生成，而单用户生成任务通常会出现延迟。
开源且本地化：DiﬀusionGemma采用宽松的Apache 2.0许可发布，完全在RTX和DGX Spark上运行，无需云端，无按token计费，并获得了Hugging Face Transformers、vLLM和Unsloth的即日支持。

不同的文本生成方式目前广泛使用的大语言模型几乎都是自回归式的，即逐个token生成文本，每个新词依赖于前一个词。这种顺序处理过程使得交互式AI感觉像是在打字。

DiﬀusionGemma则另辟蹊径。它基于Gemma 4 26B混合专家架构，采用与扩散模型生成图像类似的方式生成文本：从噪声开始，一次性完善整个文本块。每一步并行对最多256个token进行去噪，而不是发出单个token并等待计算下一个。

其结果是一个以块为单位而非顺序思考的模型。对于延迟敏感的单用户任务——例如交互式聊天、智能体循环或需要规划和执行的设备端助手——这种并行性意味着响应速度足以跟上开发者的思考和迭代步伐。

DiﬀusionGemma在NVIDIA GPU上的性能表现逐个生成token本质上是一个内存受限的问题——传统LLM大部分时间都在等待内存带宽，而非进行计算，这导致大量算力被浪费。

扩散模型则扭转了这一局面。将完整的256 token块并行通过Transformer是一个计算密集型任务——这正是NVIDIA GPU的强项。NVIDIA Tensor Core加速了密集的并行数学运算，而CUDA软件栈使模型从第一天起就能高效运行，无需定制调优。简而言之，模型的设计直接契合GPU的优势。

数据表现十分亮眼。DiﬀusionGemma在单个NVIDIA H100 Tensor Core GPU上可实现1000 tokens/sec，在NVIDIA DGX Spark上为150 tokens/sec，在NVIDIA DGX Station上最高可达2000 tokens/sec——大约是同等自回归模型在相同单用户场景下运行速度的4倍。

这一优势在NVIDIA全线产品中均得以体现，支持在以下平台运行：

本地NVIDIA DGX Spark桌面个人AI超级计算机——搭载NVIDIA GB10 Grace Blackwell超级芯片，配备128GB统一内存，预装NVIDIA AI软件栈，适用于原型开发、微调和完全本地的智能体工作流。
NVIDIA RTX PRO 6000工作站，为开发者、研究人员和AI专业人士提供运行本地低延迟生成和智能体循环所需的性能。
DGX Station，提供顶级本地高速推理，最高2000 tokens/sec，支持低延迟文本生成和智能体循环，配备748GB一致性内存。
GeForce RTX GPU，即将支持llama.cpp。

快速开始本地使用测试和原型开发模型最快的方式是通过Hugging Face Transformers，它支持在GeForce RTX 5090或DGX Spark上直接运行DiﬀusionGemma。对于更高吞吐量的推理，vLLM提供即日服务支持。

如需针对特定任务或领域调整模型，可通过Unsloth和NVIDIA NeMo框架进行微调，并提供了现成的DGX Spark手册以快速搭建本地环境。查看vLLM在DGX Spark、RTX PRO和DGX Station上的手册。

在Hugging Face上试用DiﬀusionGemma，或通过build.nvidia.com上NVIDIA托管的API免费测试。

深入了解架构和本地部署，请阅读NVIDIA技术博客和谷歌DeepMind公告。

#ICYMI：RTX AI车库最新动态

NVIDIA研究人员发布了SANA-WM，一个开源世界模型，可将单张图像和相机路径转换为长达一分钟的720p视频，并具有精确的6自由度控制。其精简版仅有26亿参数，在单个NVIDIA GeForce RTX 5090 GPU上使用NVFP4格式，生成完整的60秒片段仅需34秒——比同类开源模型吞吐量提高36倍。阅读论文。
构建Windows智能体工具集已全面就绪——NVIDIA与微软推出了原生Windows上的交钥匙智能体沙箱——微软eXecution Containers加上NVIDIA OpenShell运行时——以及最高2倍的智能体推理加速和对Hermes Agent的原生Windows支持。
DGX Spark从开箱到运行智能体只需几分钟——简化的NVIDIA NemoClaw安装使开发者能快速获得本地智能体，Qwen3.6-35B在vLLM上运行速度提升2.6倍。此外，NVIDIA Sync中的新集群助手可将多达四个DGX Spark单元连接成一个512GB池——足以运行约4000亿参数的模型。
在Facebook、Instagram、TikTok和X上关注RTX Spark，并订阅RTX Spark新闻通讯以获取最新信息。

参见软件产品信息声明。