AI News HubLIVE
站内改写3 分鐘閱讀

谷歌AI釋出DiffusionGemma:26B MoE開放模型,採用文本擴散技術實現最高4倍生成速度

DiffusionGemma是Google DeepMind推出的實驗性開放文本生成模型,採用文本擴散而非標準自迴歸解碼,在專用GPU上可實現最高4倍生成加速。模型引數量26B(MoE架構,推理時僅啟用3.8B),基於Gemma 4骨幹,支援多模態輸入(文本、影像、影片),上下文視窗256K,覆蓋140+語言,採用Apache 2.0許可。

來源MarkTechPost作者: Asif Razzaq

谷歌AI團隊(包括Google DeepMind研究人員)近日釋出了DiffusionGemma,一款實驗性的開放文本生成模型。該模型採用文本擴散技術替代標準的自迴歸解碼,並在寬鬆的Apache 2.0許可下發布。谷歌將其定位於面向開發者和研究人員,適用於對速度敏感的互動式本地工作流,例如內聯編輯、快速迭代以及生成非線性文本結構。

當前多數語言模型是自迴歸的,即逐個從左到右生成token,每個新token依賴於前一個。DiffusionGemma則不同:它同時並行生成整塊文本。在專用GPU上,這可以實現最高4倍的生成加速。

什麼是DiffusionGemma?

DiffusionGemma是一個260億引數的混合專家(MoE)模型,推理時僅啟用38億引數。它基於Gemma 4骨幹網路(具體為26B-A4B架構),並在其上整合了擴散頭。模型支援多模態輸入(文本、影像、影片交錯輸入)並生成文本輸出。上下文視窗為256K tokens,覆蓋140多種語言。量化後模型僅需18GB視訊記憶體,可裝入高階消費級GPU。在單個NVIDIA H100上,它達到每秒1000+ tokens;在NVIDIA GeForce RTX 5090上,達到每秒700+ tokens。

谷歌明確指出了取捨:DiffusionGemma優先考慮速度和並行佈局生成,但其整體輸出質量低於標準Gemma 4。對於追求最高質量的生成任務,谷歌仍推薦使用自迴歸的Gemma 4。

文本擴散的工作原理

文本擴散借鑑了AI影像生成器的核心理念:從視覺噪聲開始迭代細化。DiffusionGemma將相同模式應用於文本生成。

過程分為三個概念階段:首先,模型從一個隨機佔位符token的畫布開始;其次,它在畫布上多次迭代,鎖定高置信度的token並將其用作上下文;最後,文本收斂為最終輸出。谷歌將核心機制稱為“均勻狀態擴散”,高置信度的token幫助在去噪過程中解析相鄰位置,整個序列經過幾次迭代後最終確定。

實踐中,模型並行地對256-token的畫布進行去噪,每次前向傳遞最終確定約15-20個token。這種並行性帶來了吞吐量的提升。模型在去噪期間使用雙向注意力,畫布上的每個token可以關注所有其他token,這與僅能向後看的前一token的自迴歸模型形成鮮明對比。雙向上下文支援即時自我修正:如果某個token的置信度下降,取樣器可以對其重新噪聲化,並在後續迭代中替換該token。自迴歸模型無法做到這一點,因為它們一旦生成token就固定下來。

架構特點

技術上的進步在於硬體利用率。對於本地GPU推理,主要瓶頸是記憶體頻寬:自迴歸模型每個token都反覆從記憶體載入權重。在單使用者服務中,GPU大部分時間處於等待狀態。DiffusionGemma將瓶頸從記憶體頻寬轉移到計算——它並行草擬並細化256-token的畫布,使空閒的張量核心獲得大量並行工作負載。

推理期間模型交替使用兩種注意力模式:預填充使用因果注意力來輸入提示並寫入KV快取;去噪使用雙向注意力來細化畫布。對於更長的輸出,DiffusionGemma採用塊自迴歸擴散:一旦256-token塊完全去噪,就將其提交到KV快取,然後根據先前歷史啟動新畫布,將並行塊速度與順序自迴歸穩定性相結合。

該架構與Gemma 4 26B A4B共享相同骨幹,開發者主要需實現去噪步驟,從而簡化了與現有服務框架的整合。

一個明顯的例子是谷歌開發者指南中的數獨展示。自迴歸模型難以處理嚴格的多變數約束謎題,基礎DiffusionGemma模型解決數獨謎題的成功率約為0%。經過簡單的JAX監督微調後,正確率提升至80%,且微調後的模型更早停止,減少了推理步驟。

使用案例

DiffusionGemma針對特定工作負載,而非通用生產質量。谷歌及生態合作伙伴強調了幾個實際應用場景:內聯編輯和程式碼補全(雙向注意力適合非線性文本結構);快速迭代(低本地延遲支援互動式單使用者開發者迴圈);長上下文文件分析(256K視窗支援大輸入處理);OCR和文件解析(多模態輸入處理影像和掃描文件);程式碼生成、工具呼叫和智慧體工作流。

一個限制因素貫穿所有這些場景:加速是針對本地、低併發推理設計的。在高QPS雲服務中,自迴歸模型能有效利用計算資源,並行解碼的收益遞減且可能提高服務成本。

DiffusionGemma vs 標準Gemma 4

| 屬性 | DiffusionGemma (26B-A4B) | 標準Gemma 4 (26B-A4B) | | --- | --- | --- | | 生成方式 | 離散文本擴散(並行) | 自迴歸(逐token) | | 解碼瓶頸 | 計算受限 | 記憶體頻寬受限 | | 並行單元 | 每步256-token畫布 | 每步一個token | | 解碼注意力 | 雙向 | 因果(僅向後) | | 自我修正 | 是(透過重新噪聲化) | 否(token一旦生成即固定) | | 專有GPU速度 | 最高4倍加速 | 基線 | | H100吞吐量 | 1000+ tokens/s | 更低(基線) | | RTX 5090吞吐量 | 700+ tokens/s | 更低(基線) | | 輸出質量 | 低於Gemma 4 | 更高,推薦用於生產 | | 最佳場景 | 本地、低併發、互動式 | 高質量和高QPS雲服務 | | 許可 | Apache 2.0 | Gemma條款 |

關鍵要點

  • DiffusionGemma是26B MoE開放模型(3.8B活躍引數),透過並行擴散而非逐token生成文本。
  • 在專用GPU上執行速度最高提升4倍:H100上1000+ tokens/s,RTX 5090上700+ tokens/s。
  • 256-token畫布上的雙向注意力支援即時自我修正,不同於自迴歸模型。
  • 量化後僅需18GB VRAM,在vLLM、Transformers、MLX和Unsloth中提供首日支援。
  • 該模型為實驗性,質量低於標準Gemma 4;谷歌建議生產環境使用Gemma 4。