谷歌AI發佈DiffusionGemma:26B MoE開放模型,採用文本擴散技術實現最高4倍生成速度
DiffusionGemma是Google DeepMind推出的實驗性開放文本生成模型,採用文本擴散而非標準自迴歸解碼,在專用GPU上可實現最高4倍生成加速。模型參數量26B(MoE架構,推理時僅激活3.8B),基於Gemma 4骨幹,支持多模態輸入(文本、圖像、視頻),上下文窗口256K,覆蓋140+語言,採用Apache 2.0許可。
谷歌AI團隊(包括Google DeepMind研究人員)近日發佈了DiffusionGemma,一款實驗性的開放文本生成模型。該模型採用文本擴散技術替代標準的自迴歸解碼,並在寬鬆的Apache 2.0許可下發布。谷歌將其定位於面向開發者和研究人員,適用於對速度敏感的交互式本地工作流,例如內聯編輯、快速迭代以及生成非線性文本結構。
當前多數語言模型是自迴歸的,即逐個從左到右生成token,每個新token依賴於前一個。DiffusionGemma則不同:它同時並行生成整塊文本。在專用GPU上,這可以實現最高4倍的生成加速。
什麼是DiffusionGemma?
DiffusionGemma是一個260億參數的混合專家(MoE)模型,推理時僅激活38億參數。它基於Gemma 4骨幹網絡(具體為26B-A4B架構),並在其上集成了擴散頭。模型支持多模態輸入(文本、圖像、視頻交錯輸入)並生成文本輸出。上下文窗口為256K tokens,覆蓋140多種語言。量化後模型僅需18GB顯存,可裝入高端消費級GPU。在單個NVIDIA H100上,它達到每秒1000+ tokens;在NVIDIA GeForce RTX 5090上,達到每秒700+ tokens。
谷歌明確指出了取捨:DiffusionGemma優先考慮速度和並行佈局生成,但其整體輸出質量低於標準Gemma 4。對於追求最高質量的生成任務,谷歌仍推薦使用自迴歸的Gemma 4。
文本擴散的工作原理
文本擴散借鑑了AI圖像生成器的核心理念:從視覺噪聲開始迭代細化。DiffusionGemma將相同模式應用於文本生成。
過程分為三個概念階段:首先,模型從一個隨機佔位符token的畫布開始;其次,它在畫布上多次迭代,鎖定高置信度的token並將其用作上下文;最後,文本收斂為最終輸出。谷歌將核心機制稱為“均勻狀態擴散”,高置信度的token幫助在去噪過程中解析相鄰位置,整個序列經過幾次迭代後最終確定。
實踐中,模型並行地對256-token的畫布進行去噪,每次前向傳遞最終確定約15-20個token。這種並行性帶來了吞吐量的提升。模型在去噪期間使用雙向注意力,畫布上的每個token可以關注所有其他token,這與僅能向後看的前一token的自迴歸模型形成鮮明對比。雙向上下文支持實時自我修正:如果某個token的置信度下降,採樣器可以對其重新噪聲化,並在後續迭代中替換該token。自迴歸模型無法做到這一點,因為它們一旦生成token就固定下來。
架構特點
技術上的進步在於硬件利用率。對於本地GPU推理,主要瓶頸是內存帶寬:自迴歸模型每個token都反覆從內存加載權重。在單用户服務中,GPU大部分時間處於等待狀態。DiffusionGemma將瓶頸從內存帶寬轉移到計算——它並行草擬並細化256-token的畫布,使空閒的張量核心獲得大量並行工作負載。
推理期間模型交替使用兩種注意力模式:預填充使用因果注意力來輸入提示並寫入KV緩存;去噪使用雙向注意力來細化畫布。對於更長的輸出,DiffusionGemma採用塊自迴歸擴散:一旦256-token塊完全去噪,就將其提交到KV緩存,然後根據先前歷史啓動新畫布,將並行塊速度與順序自迴歸穩定性相結合。
該架構與Gemma 4 26B A4B共享相同骨幹,開發者主要需實現去噪步驟,從而簡化了與現有服務框架的集成。
一個明顯的例子是谷歌開發者指南中的數獨展示。自迴歸模型難以處理嚴格的多變量約束謎題,基礎DiffusionGemma模型解決數獨謎題的成功率約為0%。經過簡單的JAX監督微調後,正確率提升至80%,且微調後的模型更早停止,減少了推理步驟。
使用案例
DiffusionGemma針對特定工作負載,而非通用生產質量。谷歌及生態合作伙伴強調了幾個實際應用場景:內聯編輯和代碼補全(雙向注意力適合非線性文本結構);快速迭代(低本地延遲支持交互式單用户開發者循環);長上下文文檔分析(256K窗口支持大輸入處理);OCR和文檔解析(多模態輸入處理圖像和掃描文檔);代碼生成、工具調用和智能體工作流。
一個限制因素貫穿所有這些場景:加速是針對本地、低併發推理設計的。在高QPS雲服務中,自迴歸模型能有效利用計算資源,並行解碼的收益遞減且可能提高服務成本。
DiffusionGemma vs 標準Gemma 4
| 屬性 | DiffusionGemma (26B-A4B) | 標準Gemma 4 (26B-A4B) | | --- | --- | --- | | 生成方式 | 離散文本擴散(並行) | 自迴歸(逐token) | | 解碼瓶頸 | 計算受限 | 內存帶寬受限 | | 並行單元 | 每步256-token畫布 | 每步一個token | | 解碼注意力 | 雙向 | 因果(僅向後) | | 自我修正 | 是(通過重新噪聲化) | 否(token一旦生成即固定) | | 專有GPU速度 | 最高4倍加速 | 基線 | | H100吞吐量 | 1000+ tokens/s | 更低(基線) | | RTX 5090吞吐量 | 700+ tokens/s | 更低(基線) | | 輸出質量 | 低於Gemma 4 | 更高,推薦用於生產 | | 最佳場景 | 本地、低併發、交互式 | 高質量和高QPS雲服務 | | 許可 | Apache 2.0 | Gemma條款 |
關鍵要點
- DiffusionGemma是26B MoE開放模型(3.8B活躍參數),通過並行擴散而非逐token生成文本。
- 在專用GPU上運行速度最高提升4倍:H100上1000+ tokens/s,RTX 5090上700+ tokens/s。
- 256-token畫布上的雙向注意力支持實時自我修正,不同於自迴歸模型。
- 量化後僅需18GB VRAM,在vLLM、Transformers、MLX和Unsloth中提供首日支持。
- 該模型為實驗性,質量低於標準Gemma 4;谷歌建議生產環境使用Gemma 4。