2026-06-10站内改写3 分鐘閱讀更新: 2026-06-12

谷歌AI釋出DiffusionGemma：26B MoE開放模型，採用文本擴散技術實現最高4倍生成速度

DiffusionGemma是Google DeepMind推出的實驗性開放文本生成模型，採用文本擴散而非標準自迴歸解碼，在專用GPU上可實現最高4倍生成加速。模型引數量26B（MoE架構，推理時僅啟用3.8B），基於Gemma 4骨幹，支援多模態輸入（文本、影像、影片），上下文視窗256K，覆蓋140+語言，採用Apache 2.0許可。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

DiffusionGemma是26B引數的混合專家（MoE）模型，推理時僅啟用3.8B引數，透過並行文本擴散生成整塊文本。
在單個NVIDIA H100上達到1000+ tokens/s，RTX 5090上700+ tokens/s，量化後僅需18GB VRAM。
雙向注意力機制支援自我修正（重新噪聲化低置信度token），不同於自迴歸模型的單向生成。
適用於本地低併發互動式工作負載，如內聯編輯、程式碼補全、長上下文分析等，但輸出質量低於標準Gemma 4。

為什麼重要

這條新聞值得關注，因為DiffusionGemma是26B引數的混合專家（MoE）模型，推理時僅啟用3.8B引數，透過並行文本擴散生成整塊文本。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

谷歌AI團隊（包括Google DeepMind研究人員）近日釋出了DiffusionGemma，一款實驗性的開放文本生成模型。該模型採用文本擴散技術替代標準的自迴歸解碼，並在寬鬆的Apache 2.0許可下發布。谷歌將其定位於面向開發者和研究人員，適用於對速度敏感的互動式本地工作流，例如內聯編輯、快速迭代以及生成非線性文本結構。

當前多數語言模型是自迴歸的，即逐個從左到右生成token，每個新token依賴於前一個。DiffusionGemma則不同：它同時並行生成整塊文本。在專用GPU上，這可以實現最高4倍的生成加速。

什麼是DiffusionGemma？

DiffusionGemma是一個260億引數的混合專家（MoE）模型，推理時僅啟用38億引數。它基於Gemma 4骨幹網路（具體為26B-A4B架構），並在其上整合了擴散頭。模型支援多模態輸入（文本、影像、影片交錯輸入）並生成文本輸出。上下文視窗為256K tokens，覆蓋140多種語言。量化後模型僅需18GB視訊記憶體，可裝入高階消費級GPU。在單個NVIDIA H100上，它達到每秒1000+ tokens；在NVIDIA GeForce RTX 5090上，達到每秒700+ tokens。

谷歌明確指出了取捨：DiffusionGemma優先考慮速度和並行佈局生成，但其整體輸出質量低於標準Gemma 4。對於追求最高質量的生成任務，谷歌仍推薦使用自迴歸的Gemma 4。

文本擴散的工作原理

文本擴散借鑑了AI影像生成器的核心理念：從視覺噪聲開始迭代細化。DiffusionGemma將相同模式應用於文本生成。

過程分為三個概念階段：首先，模型從一個隨機佔位符token的畫布開始；其次，它在畫布上多次迭代，鎖定高置信度的token並將其用作上下文；最後，文本收斂為最終輸出。谷歌將核心機制稱為“均勻狀態擴散”，高置信度的token幫助在去噪過程中解析相鄰位置，整個序列經過幾次迭代後最終確定。

實踐中，模型並行地對256-token的畫布進行去噪，每次前向傳遞最終確定約15-20個token。這種並行性帶來了吞吐量的提升。模型在去噪期間使用雙向注意力，畫布上的每個token可以關注所有其他token，這與僅能向後看的前一token的自迴歸模型形成鮮明對比。雙向上下文支援即時自我修正：如果某個token的置信度下降，取樣器可以對其重新噪聲化，並在後續迭代中替換該token。自迴歸模型無法做到這一點，因為它們一旦生成token就固定下來。

架構特點

技術上的進步在於硬體利用率。對於本地GPU推理，主要瓶頸是記憶體頻寬：自迴歸模型每個token都反覆從記憶體載入權重。在單使用者服務中，GPU大部分時間處於等待狀態。DiffusionGemma將瓶頸從記憶體頻寬轉移到計算——它並行草擬並細化256-token的畫布，使空閒的張量核心獲得大量並行工作負載。

推理期間模型交替使用兩種注意力模式：預填充使用因果注意力來輸入提示並寫入KV快取；去噪使用雙向注意力來細化畫布。對於更長的輸出，DiffusionGemma採用塊自迴歸擴散：一旦256-token塊完全去噪，就將其提交到KV快取，然後根據先前歷史啟動新畫布，將並行塊速度與順序自迴歸穩定性相結合。

該架構與Gemma 4 26B A4B共享相同骨幹，開發者主要需實現去噪步驟，從而簡化了與現有服務框架的整合。

一個明顯的例子是谷歌開發者指南中的數獨展示。自迴歸模型難以處理嚴格的多變數約束謎題，基礎DiffusionGemma模型解決數獨謎題的成功率約為0%。經過簡單的JAX監督微調後，正確率提升至80%，且微調後的模型更早停止，減少了推理步驟。

使用案例

DiffusionGemma針對特定工作負載，而非通用生產質量。谷歌及生態合作伙伴強調了幾個實際應用場景：內聯編輯和程式碼補全（雙向注意力適合非線性文本結構）；快速迭代（低本地延遲支援互動式單使用者開發者迴圈）；長上下文文件分析（256K視窗支援大輸入處理）；OCR和文件解析（多模態輸入處理影像和掃描文件）；程式碼生成、工具呼叫和智慧體工作流。

一個限制因素貫穿所有這些場景：加速是針對本地、低併發推理設計的。在高QPS雲服務中，自迴歸模型能有效利用計算資源，並行解碼的收益遞減且可能提高服務成本。

DiffusionGemma vs 標準Gemma 4

| 屬性 | DiffusionGemma (26B-A4B) | 標準Gemma 4 (26B-A4B) | | --- | --- | --- | | 生成方式 | 離散文本擴散（並行） | 自迴歸（逐token） | | 解碼瓶頸 | 計算受限 | 記憶體頻寬受限 | | 並行單元 | 每步256-token畫布 | 每步一個token | | 解碼注意力 | 雙向 | 因果（僅向後） | | 自我修正 | 是（透過重新噪聲化） | 否（token一旦生成即固定） | | 專有GPU速度 | 最高4倍加速 | 基線 | | H100吞吐量 | 1000+ tokens/s | 更低（基線） | | RTX 5090吞吐量 | 700+ tokens/s | 更低（基線） | | 輸出質量 | 低於Gemma 4 | 更高，推薦用於生產 | | 最佳場景 | 本地、低併發、互動式 | 高質量和高QPS雲服務 | | 許可 | Apache 2.0 | Gemma條款 |

關鍵要點

DiffusionGemma是26B MoE開放模型（3.8B活躍引數），透過並行擴散而非逐token生成文本。
在專用GPU上執行速度最高提升4倍：H100上1000+ tokens/s，RTX 5090上700+ tokens/s。
256-token畫布上的雙向注意力支援即時自我修正，不同於自迴歸模型。
量化後僅需18GB VRAM，在vLLM、Transformers、MLX和Unsloth中提供首日支援。
該模型為實驗性，質量低於標準Gemma 4；谷歌建議生產環境使用Gemma 4。