2026-06-11站内改写1 分鐘閱讀更新: 2026-06-12

DiffusionGemma：谷歌基於擴散的開源模型，實現更快的文本生成

谷歌DeepMind的DiffusionGemma是一款實驗性的開源模型，採用擴散方式並行生成文本塊，相比傳統的自迴歸模型，在本地推理時速度更快。它基於Gemma 4 26B A4B MoE架構，犧牲部分質量換取速度，特別適用於互動式編輯等任務。本文解釋了其架構、文本擴散的工作原理、基準測試結果，並提供了使用llama.cpp在本地執行的分步指南。

來源Analytics Vidhya作者: Harsh Mishra

谷歌DeepMind推出了DiffusionGemma，這是一種基於擴散思想的文本生成模型，旨在解決傳統自迴歸模型在本地推理中的效率問題。傳統大型語言模型逐令牌生成文本，雖然質量高，但在單使用者場景下，GPU常因記憶體頻寬瓶頸而利用率不足。DiffusionGemma採用完全不同的策略：在一個256令牌的“畫布”上並行生成和最佳化文本塊，透過多次去噪步驟逐步提高質量。

該模型基於Gemma 4 26B A4B混合專家（MoE）架構，總引數25.2B，推理時啟用約3.8B引數。其架構分為三部分：編碼器負責處理提示並生成KV快取；去噪解碼器採用雙向注意力，在畫布內允許任意位置相互關注；多畫布取樣則透過塊自迴歸方式處理長文本，每個256令牌塊獨立擴散，然後拼接完整輸出。

與自迴歸模型的對比中，DiffusionGemma的生成方式更接近“草稿系統”，而非“打字機”。它先隨機填充令牌，然後並行預測所有位置，高置信度令牌被鎖定，低置信度令牌則重新加噪並繼續最佳化，直至畫布收斂。這一過程使得文本編輯、程式碼填充、結構化輸出等任務受益，因為後期內容可影響早期選擇。

基準測試顯示，DiffusionGemma在數學、程式設計、科學推理等標準指標上略低於Gemma 4 26B，但其核心優勢在於延遲：在低併發或本地推理時，速度提升顯著。因此，它被定位為“速度優先”的實驗模型，特別適合內聯編輯、快速迭代、本地AI助手等場景。

為了讓開發者自行體驗，文章還提供了詳細的本地執行指南。需要從llama.cpp的特定分支構建llama-diffusion-cli，並下載Unsloth提供的Q4_K_M量化GGUF模型。透過簡單的命令即可在支援CUDA的系統上執行，並利用--diffusion-visual引數觀察擴散過程的視覺化效果。

總之，DiffusionGemma代表了一種文本生成的新正規化，雖然尚未成熟，但為本地和互動式AI應用開啟了新可能。其並行生成機制有望在硬體效率上帶來突破，未來版本可能進一步縮小與標準模型的效能差距。