NVIDIA加速谷歌DeepMind的DiffusionGemma,實現本地AI
谷歌DeepMind發佈了DiffusionGemma實驗性開源模型,通過並行生成文本而非逐詞預測,大幅提升速度。NVIDIA對其進行了優化,使其在GeForce RTX、RTX PRO和DGX Spark等平台上運行更快,本地即可實現高達1000 tokens/sec的推理速度。
今日,谷歌DeepMind發佈了DiffusionGemma——一款實驗性的開源模型,專為超快文本生成而設計。NVIDIA已對該模型進行優化,使其能在NVIDIA GeForce RTX GPU、NVIDIA RTX PRO平台以及NVIDIA DGX Spark系統上運行得更快,覆蓋從本地PC到雲端的環境。
與逐詞生成文本的傳統方式不同,DiffusionGemma能夠並行生成多個單詞,一次性輸出整塊文本,為開發者、研究人員和AI愛好者日常運行的單一用户工作負載開闢了新的低延遲前沿。
該模型的核心特性包括:
- 並行生成:每步最多對256個token進行去噪,而非逐個預測。
- 基於Gemma 4:DiffusionGemma建立在Gemma 4之上,這是一個260億參數的混合專家模型,每步僅激活38億參數,將擴散頭與谷歌的Gemma 4架構相結合。
- 性能提升高達4倍:這一提升意味着在本地硬件上實現快速文本生成,而單用户生成任務通常會出現延遲。
- 開源且本地化:DiffusionGemma採用寬鬆的Apache 2.0許可發佈,完全在RTX和DGX Spark上運行,無需雲端,無按token計費,並獲得了Hugging Face Transformers、vLLM和Unsloth的即日支持。
不同的文本生成方式 目前廣泛使用的大語言模型幾乎都是自迴歸式的,即逐個token生成文本,每個新詞依賴於前一個詞。這種順序處理過程使得交互式AI感覺像是在打字。
DiffusionGemma則另闢蹊徑。它基於Gemma 4 26B混合專家架構,採用與擴散模型生成圖像類似的方式生成文本:從噪聲開始,一次性完善整個文本塊。每一步並行對最多256個token進行去噪,而不是發出單個token並等待計算下一個。
其結果是一個以塊為單位而非順序思考的模型。對於延遲敏感的單用户任務——例如交互式聊天、智能體循環或需要規劃和執行的設備端助手——這種並行性意味着響應速度足以跟上開發者的思考和迭代步伐。
DiffusionGemma在NVIDIA GPU上的性能表現 逐個生成token本質上是一個內存受限的問題——傳統LLM大部分時間都在等待內存帶寬,而非進行計算,這導致大量算力被浪費。
擴散模型則扭轉了這一局面。將完整的256 token塊並行通過Transformer是一個計算密集型任務——這正是NVIDIA GPU的強項。NVIDIA Tensor Core加速了密集的並行數學運算,而CUDA軟件棧使模型從第一天起就能高效運行,無需定製調優。簡而言之,模型的設計直接契合GPU的優勢。
數據表現十分亮眼。DiffusionGemma在單個NVIDIA H100 Tensor Core GPU上可實現1000 tokens/sec,在NVIDIA DGX Spark上為150 tokens/sec,在NVIDIA DGX Station上最高可達2000 tokens/sec——大約是同等自迴歸模型在相同單用户場景下運行速度的4倍。
這一優勢在NVIDIA全線產品中均得以體現,支持在以下平台運行:
- 本地NVIDIA DGX Spark桌面個人AI超級計算機——搭載NVIDIA GB10 Grace Blackwell超級芯片,配備128GB統一內存,預裝NVIDIA AI軟件棧,適用於原型開發、微調和完全本地的智能體工作流。
- NVIDIA RTX PRO 6000工作站,為開發者、研究人員和AI專業人士提供運行本地低延遲生成和智能體循環所需的性能。
- DGX Station,提供頂級本地高速推理,最高2000 tokens/sec,支持低延遲文本生成和智能體循環,配備748GB一致性內存。
- GeForce RTX GPU,即將支持llama.cpp。
快速開始本地使用 測試和原型開發模型最快的方式是通過Hugging Face Transformers,它支持在GeForce RTX 5090或DGX Spark上直接運行DiffusionGemma。對於更高吞吐量的推理,vLLM提供即日服務支持。
如需針對特定任務或領域調整模型,可通過Unsloth和NVIDIA NeMo框架進行微調,並提供了現成的DGX Spark手冊以快速搭建本地環境。查看vLLM在DGX Spark、RTX PRO和DGX Station上的手冊。
在Hugging Face上試用DiffusionGemma,或通過build.nvidia.com上NVIDIA託管的API免費測試。
深入瞭解架構和本地部署,請閲讀NVIDIA技術博客和谷歌DeepMind公告。
#ICYMI:RTX AI車庫最新動態
- NVIDIA研究人員發佈了SANA-WM,一個開源世界模型,可將單張圖像和相機路徑轉換為長達一分鐘的720p視頻,並具有精確的6自由度控制。其精簡版僅有26億參數,在單個NVIDIA GeForce RTX 5090 GPU上使用NVFP4格式,生成完整的60秒片段僅需34秒——比同類開源模型吞吐量提高36倍。閲讀論文。
- 構建Windows智能體工具集已全面就緒——NVIDIA與微軟推出了原生Windows上的交鑰匙智能體沙箱——微軟eXecution Containers加上NVIDIA OpenShell運行時——以及最高2倍的智能體推理加速和對Hermes Agent的原生Windows支持。
- DGX Spark從開箱到運行智能體只需幾分鐘——簡化的NVIDIA NemoClaw安裝使開發者能快速獲得本地智能體,Qwen3.6-35B在vLLM上運行速度提升2.6倍。此外,NVIDIA Sync中的新集羣助手可將多達四個DGX Spark單元連接成一個512GB池——足以運行約4000億參數的模型。
- 在Facebook、Instagram、TikTok和X上關注RTX Spark,並訂閲RTX Spark新聞通訊以獲取最新信息。
參見軟件產品信息聲明。