AI News HubLIVE
站内改写1 分鐘閱讀

DiffusionGemma:谷歌基於擴散的開源模型,實現更快的文本生成

谷歌DeepMind的DiffusionGemma是一款實驗性的開源模型,採用擴散方式並行生成文本塊,相比傳統的自迴歸模型,在本地推理時速度更快。它基於Gemma 4 26B A4B MoE架構,犧牲部分質量換取速度,特別適用於交互式編輯等任務。本文解釋了其架構、文本擴散的工作原理、基準測試結果,並提供了使用llama.cpp在本地運行的分步指南。

來源Analytics Vidhya作者: Harsh Mishra

谷歌DeepMind推出了DiffusionGemma,這是一種基於擴散思想的文本生成模型,旨在解決傳統自迴歸模型在本地推理中的效率問題。傳統大型語言模型逐令牌生成文本,雖然質量高,但在單用户場景下,GPU常因內存帶寬瓶頸而利用率不足。DiffusionGemma採用完全不同的策略:在一個256令牌的“畫布”上並行生成和優化文本塊,通過多次去噪步驟逐步提高質量。

該模型基於Gemma 4 26B A4B混合專家(MoE)架構,總參數25.2B,推理時激活約3.8B參數。其架構分為三部分:編碼器負責處理提示並生成KV緩存;去噪解碼器採用雙向注意力,在畫布內允許任意位置相互關注;多畫布採樣則通過塊自迴歸方式處理長文本,每個256令牌塊獨立擴散,然後拼接完整輸出。

與自迴歸模型的對比中,DiffusionGemma的生成方式更接近“草稿系統”,而非“打字機”。它先隨機填充令牌,然後並行預測所有位置,高置信度令牌被鎖定,低置信度令牌則重新加噪並繼續優化,直至畫布收斂。這一過程使得文本編輯、代碼填充、結構化輸出等任務受益,因為後期內容可影響早期選擇。

基準測試顯示,DiffusionGemma在數學、編程、科學推理等標準指標上略低於Gemma 4 26B,但其核心優勢在於延遲:在低併發或本地推理時,速度提升顯著。因此,它被定位為“速度優先”的實驗模型,特別適合內聯編輯、快速迭代、本地AI助手等場景。

為了讓開發者自行體驗,文章還提供了詳細的本地運行指南。需要從llama.cpp的特定分支構建llama-diffusion-cli,並下載Unsloth提供的Q4_K_M量化GGUF模型。通過簡單的命令即可在支持CUDA的系統上運行,並利用--diffusion-visual參數觀察擴散過程的可視化效果。

總之,DiffusionGemma代表了一種文本生成的新範式,雖然尚未成熟,但為本地和交互式AI應用打開了新可能。其並行生成機制有望在硬件效率上帶來突破,未來版本可能進一步縮小與標準模型的性能差距。