AI News HubLIVE
站内改写3 分钟阅读

NVIDIA加速谷歌DeepMind的DiffusionGemma,实现本地AI

谷歌DeepMind发布了DiffusionGemma实验性开源模型,通过并行生成文本而非逐词预测,大幅提升速度。NVIDIA对其进行了优化,使其在GeForce RTX、RTX PRO和DGX Spark等平台上运行更快,本地即可实现高达1000 tokens/sec的推理速度。

来源NVIDIA Blog作者: Michael Fukuyama

今日,谷歌DeepMind发布了DiffusionGemma——一款实验性的开源模型,专为超快文本生成而设计。NVIDIA已对该模型进行优化,使其能在NVIDIA GeForce RTX GPU、NVIDIA RTX PRO平台以及NVIDIA DGX Spark系统上运行得更快,覆盖从本地PC到云端的环境。

与逐词生成文本的传统方式不同,DiffusionGemma能够并行生成多个单词,一次性输出整块文本,为开发者、研究人员和AI爱好者日常运行的单一用户工作负载开辟了新的低延迟前沿。

该模型的核心特性包括:

  • 并行生成:每步最多对256个token进行去噪,而非逐个预测。
  • 基于Gemma 4:DiffusionGemma建立在Gemma 4之上,这是一个260亿参数的混合专家模型,每步仅激活38亿参数,将扩散头与谷歌的Gemma 4架构相结合。
  • 性能提升高达4倍:这一提升意味着在本地硬件上实现快速文本生成,而单用户生成任务通常会出现延迟。
  • 开源且本地化:DiffusionGemma采用宽松的Apache 2.0许可发布,完全在RTX和DGX Spark上运行,无需云端,无按token计费,并获得了Hugging Face Transformers、vLLM和Unsloth的即日支持。

不同的文本生成方式 目前广泛使用的大语言模型几乎都是自回归式的,即逐个token生成文本,每个新词依赖于前一个词。这种顺序处理过程使得交互式AI感觉像是在打字。

DiffusionGemma则另辟蹊径。它基于Gemma 4 26B混合专家架构,采用与扩散模型生成图像类似的方式生成文本:从噪声开始,一次性完善整个文本块。每一步并行对最多256个token进行去噪,而不是发出单个token并等待计算下一个。

其结果是一个以块为单位而非顺序思考的模型。对于延迟敏感的单用户任务——例如交互式聊天、智能体循环或需要规划和执行的设备端助手——这种并行性意味着响应速度足以跟上开发者的思考和迭代步伐。

DiffusionGemma在NVIDIA GPU上的性能表现 逐个生成token本质上是一个内存受限的问题——传统LLM大部分时间都在等待内存带宽,而非进行计算,这导致大量算力被浪费。

扩散模型则扭转了这一局面。将完整的256 token块并行通过Transformer是一个计算密集型任务——这正是NVIDIA GPU的强项。NVIDIA Tensor Core加速了密集的并行数学运算,而CUDA软件栈使模型从第一天起就能高效运行,无需定制调优。简而言之,模型的设计直接契合GPU的优势。

数据表现十分亮眼。DiffusionGemma在单个NVIDIA H100 Tensor Core GPU上可实现1000 tokens/sec,在NVIDIA DGX Spark上为150 tokens/sec,在NVIDIA DGX Station上最高可达2000 tokens/sec——大约是同等自回归模型在相同单用户场景下运行速度的4倍。

这一优势在NVIDIA全线产品中均得以体现,支持在以下平台运行:

  • 本地NVIDIA DGX Spark桌面个人AI超级计算机——搭载NVIDIA GB10 Grace Blackwell超级芯片,配备128GB统一内存,预装NVIDIA AI软件栈,适用于原型开发、微调和完全本地的智能体工作流。
  • NVIDIA RTX PRO 6000工作站,为开发者、研究人员和AI专业人士提供运行本地低延迟生成和智能体循环所需的性能。
  • DGX Station,提供顶级本地高速推理,最高2000 tokens/sec,支持低延迟文本生成和智能体循环,配备748GB一致性内存。
  • GeForce RTX GPU,即将支持llama.cpp。

快速开始本地使用 测试和原型开发模型最快的方式是通过Hugging Face Transformers,它支持在GeForce RTX 5090或DGX Spark上直接运行DiffusionGemma。对于更高吞吐量的推理,vLLM提供即日服务支持。

如需针对特定任务或领域调整模型,可通过Unsloth和NVIDIA NeMo框架进行微调,并提供了现成的DGX Spark手册以快速搭建本地环境。查看vLLM在DGX Spark、RTX PRO和DGX Station上的手册。

在Hugging Face上试用DiffusionGemma,或通过build.nvidia.com上NVIDIA托管的API免费测试。

深入了解架构和本地部署,请阅读NVIDIA技术博客和谷歌DeepMind公告。

#ICYMI:RTX AI车库最新动态

  • NVIDIA研究人员发布了SANA-WM,一个开源世界模型,可将单张图像和相机路径转换为长达一分钟的720p视频,并具有精确的6自由度控制。其精简版仅有26亿参数,在单个NVIDIA GeForce RTX 5090 GPU上使用NVFP4格式,生成完整的60秒片段仅需34秒——比同类开源模型吞吐量提高36倍。阅读论文。
  • 构建Windows智能体工具集已全面就绪——NVIDIA与微软推出了原生Windows上的交钥匙智能体沙箱——微软eXecution Containers加上NVIDIA OpenShell运行时——以及最高2倍的智能体推理加速和对Hermes Agent的原生Windows支持。
  • DGX Spark从开箱到运行智能体只需几分钟——简化的NVIDIA NemoClaw安装使开发者能快速获得本地智能体,Qwen3.6-35B在vLLM上运行速度提升2.6倍。此外,NVIDIA Sync中的新集群助手可将多达四个DGX Spark单元连接成一个512GB池——足以运行约4000亿参数的模型。
  • 在Facebook、Instagram、TikTok和X上关注RTX Spark,并订阅RTX Spark新闻通讯以获取最新信息。

参见软件产品信息声明。