AI News HubLIVE
站内改写1 分鐘閱讀

DiffusionGemma:谷歌基於擴散的開源模型,實現更快的文本生成

谷歌DeepMind的DiffusionGemma是一款實驗性的開源模型,採用擴散方式並行生成文本塊,相比傳統的自迴歸模型,在本地推理時速度更快。它基於Gemma 4 26B A4B MoE架構,犧牲部分質量換取速度,特別適用於互動式編輯等任務。本文解釋了其架構、文本擴散的工作原理、基準測試結果,並提供了使用llama.cpp在本地執行的分步指南。

來源Analytics Vidhya作者: Harsh Mishra

谷歌DeepMind推出了DiffusionGemma,這是一種基於擴散思想的文本生成模型,旨在解決傳統自迴歸模型在本地推理中的效率問題。傳統大型語言模型逐令牌生成文本,雖然質量高,但在單使用者場景下,GPU常因記憶體頻寬瓶頸而利用率不足。DiffusionGemma採用完全不同的策略:在一個256令牌的“畫布”上並行生成和最佳化文本塊,透過多次去噪步驟逐步提高質量。

該模型基於Gemma 4 26B A4B混合專家(MoE)架構,總引數25.2B,推理時啟用約3.8B引數。其架構分為三部分:編碼器負責處理提示並生成KV快取;去噪解碼器採用雙向注意力,在畫布內允許任意位置相互關注;多畫布取樣則透過塊自迴歸方式處理長文本,每個256令牌塊獨立擴散,然後拼接完整輸出。

與自迴歸模型的對比中,DiffusionGemma的生成方式更接近“草稿系統”,而非“打字機”。它先隨機填充令牌,然後並行預測所有位置,高置信度令牌被鎖定,低置信度令牌則重新加噪並繼續最佳化,直至畫布收斂。這一過程使得文本編輯、程式碼填充、結構化輸出等任務受益,因為後期內容可影響早期選擇。

基準測試顯示,DiffusionGemma在數學、程式設計、科學推理等標準指標上略低於Gemma 4 26B,但其核心優勢在於延遲:在低併發或本地推理時,速度提升顯著。因此,它被定位為“速度優先”的實驗模型,特別適合內聯編輯、快速迭代、本地AI助手等場景。

為了讓開發者自行體驗,文章還提供了詳細的本地執行指南。需要從llama.cpp的特定分支構建llama-diffusion-cli,並下載Unsloth提供的Q4_K_M量化GGUF模型。透過簡單的命令即可在支援CUDA的系統上執行,並利用--diffusion-visual引數觀察擴散過程的視覺化效果。

總之,DiffusionGemma代表了一種文本生成的新正規化,雖然尚未成熟,但為本地和互動式AI應用開啟了新可能。其並行生成機制有望在硬體效率上帶來突破,未來版本可能進一步縮小與標準模型的效能差距。