2026-06-10站内改写3 分鐘閱讀更新: 2026-06-12

NVIDIA加速谷歌DeepMind的DiffusionGemma，實現本地AI

谷歌DeepMind發佈了DiﬀusionGemma實驗性開源模型，通過並行生成文本而非逐詞預測，大幅提升速度。NVIDIA對其進行了優化，使其在GeForce RTX、RTX PRO和DGX Spark等平台上運行更快，本地即可實現高達1000 tokens/sec的推理速度。

來源NVIDIA Blog作者: Michael Fukuyama

今日，谷歌DeepMind發佈了DiﬀusionGemma——一款實驗性的開源模型，專為超快文本生成而設計。NVIDIA已對該模型進行優化，使其能在NVIDIA GeForce RTX GPU、NVIDIA RTX PRO平台以及NVIDIA DGX Spark系統上運行得更快，覆蓋從本地PC到雲端的環境。

與逐詞生成文本的傳統方式不同，DiﬀusionGemma能夠並行生成多個單詞，一次性輸出整塊文本，為開發者、研究人員和AI愛好者日常運行的單一用户工作負載開闢了新的低延遲前沿。

該模型的核心特性包括：

並行生成：每步最多對256個token進行去噪，而非逐個預測。
基於Gemma 4：DiﬀusionGemma建立在Gemma 4之上，這是一個260億參數的混合專家模型，每步僅激活38億參數，將擴散頭與谷歌的Gemma 4架構相結合。
性能提升高達4倍：這一提升意味着在本地硬件上實現快速文本生成，而單用户生成任務通常會出現延遲。
開源且本地化：DiﬀusionGemma採用寬鬆的Apache 2.0許可發佈，完全在RTX和DGX Spark上運行，無需雲端，無按token計費，並獲得了Hugging Face Transformers、vLLM和Unsloth的即日支持。

不同的文本生成方式目前廣泛使用的大語言模型幾乎都是自迴歸式的，即逐個token生成文本，每個新詞依賴於前一個詞。這種順序處理過程使得交互式AI感覺像是在打字。

DiﬀusionGemma則另闢蹊徑。它基於Gemma 4 26B混合專家架構，採用與擴散模型生成圖像類似的方式生成文本：從噪聲開始，一次性完善整個文本塊。每一步並行對最多256個token進行去噪，而不是發出單個token並等待計算下一個。

其結果是一個以塊為單位而非順序思考的模型。對於延遲敏感的單用户任務——例如交互式聊天、智能體循環或需要規劃和執行的設備端助手——這種並行性意味着響應速度足以跟上開發者的思考和迭代步伐。

DiﬀusionGemma在NVIDIA GPU上的性能表現逐個生成token本質上是一個內存受限的問題——傳統LLM大部分時間都在等待內存帶寬，而非進行計算，這導致大量算力被浪費。

擴散模型則扭轉了這一局面。將完整的256 token塊並行通過Transformer是一個計算密集型任務——這正是NVIDIA GPU的強項。NVIDIA Tensor Core加速了密集的並行數學運算，而CUDA軟件棧使模型從第一天起就能高效運行，無需定製調優。簡而言之，模型的設計直接契合GPU的優勢。

數據表現十分亮眼。DiﬀusionGemma在單個NVIDIA H100 Tensor Core GPU上可實現1000 tokens/sec，在NVIDIA DGX Spark上為150 tokens/sec，在NVIDIA DGX Station上最高可達2000 tokens/sec——大約是同等自迴歸模型在相同單用户場景下運行速度的4倍。

這一優勢在NVIDIA全線產品中均得以體現，支持在以下平台運行：

本地NVIDIA DGX Spark桌面個人AI超級計算機——搭載NVIDIA GB10 Grace Blackwell超級芯片，配備128GB統一內存，預裝NVIDIA AI軟件棧，適用於原型開發、微調和完全本地的智能體工作流。
NVIDIA RTX PRO 6000工作站，為開發者、研究人員和AI專業人士提供運行本地低延遲生成和智能體循環所需的性能。
DGX Station，提供頂級本地高速推理，最高2000 tokens/sec，支持低延遲文本生成和智能體循環，配備748GB一致性內存。
GeForce RTX GPU，即將支持llama.cpp。

快速開始本地使用測試和原型開發模型最快的方式是通過Hugging Face Transformers，它支持在GeForce RTX 5090或DGX Spark上直接運行DiﬀusionGemma。對於更高吞吐量的推理，vLLM提供即日服務支持。

如需針對特定任務或領域調整模型，可通過Unsloth和NVIDIA NeMo框架進行微調，並提供了現成的DGX Spark手冊以快速搭建本地環境。查看vLLM在DGX Spark、RTX PRO和DGX Station上的手冊。

在Hugging Face上試用DiﬀusionGemma，或通過build.nvidia.com上NVIDIA託管的API免費測試。

深入瞭解架構和本地部署，請閲讀NVIDIA技術博客和谷歌DeepMind公告。

#ICYMI：RTX AI車庫最新動態

NVIDIA研究人員發佈了SANA-WM，一個開源世界模型，可將單張圖像和相機路徑轉換為長達一分鐘的720p視頻，並具有精確的6自由度控制。其精簡版僅有26億參數，在單個NVIDIA GeForce RTX 5090 GPU上使用NVFP4格式，生成完整的60秒片段僅需34秒——比同類開源模型吞吐量提高36倍。閲讀論文。
構建Windows智能體工具集已全面就緒——NVIDIA與微軟推出了原生Windows上的交鑰匙智能體沙箱——微軟eXecution Containers加上NVIDIA OpenShell運行時——以及最高2倍的智能體推理加速和對Hermes Agent的原生Windows支持。
DGX Spark從開箱到運行智能體只需幾分鐘——簡化的NVIDIA NemoClaw安裝使開發者能快速獲得本地智能體，Qwen3.6-35B在vLLM上運行速度提升2.6倍。此外，NVIDIA Sync中的新集羣助手可將多達四個DGX Spark單元連接成一個512GB池——足以運行約4000億參數的模型。
在Facebook、Instagram、TikTok和X上關注RTX Spark，並訂閲RTX Spark新聞通訊以獲取最新信息。

參見軟件產品信息聲明。