DiffusionGemma:谷歌基于扩散的开源模型,实现更快的文本生成
谷歌DeepMind的DiffusionGemma是一款实验性的开源模型,采用扩散方式并行生成文本块,相比传统的自回归模型,在本地推理时速度更快。它基于Gemma 4 26B A4B MoE架构,牺牲部分质量换取速度,特别适用于交互式编辑等任务。本文解释了其架构、文本扩散的工作原理、基准测试结果,并提供了使用llama.cpp在本地运行的分步指南。
谷歌DeepMind推出了DiffusionGemma,这是一种基于扩散思想的文本生成模型,旨在解决传统自回归模型在本地推理中的效率问题。传统大型语言模型逐令牌生成文本,虽然质量高,但在单用户场景下,GPU常因内存带宽瓶颈而利用率不足。DiffusionGemma采用完全不同的策略:在一个256令牌的“画布”上并行生成和优化文本块,通过多次去噪步骤逐步提高质量。
该模型基于Gemma 4 26B A4B混合专家(MoE)架构,总参数25.2B,推理时激活约3.8B参数。其架构分为三部分:编码器负责处理提示并生成KV缓存;去噪解码器采用双向注意力,在画布内允许任意位置相互关注;多画布采样则通过块自回归方式处理长文本,每个256令牌块独立扩散,然后拼接完整输出。
与自回归模型的对比中,DiffusionGemma的生成方式更接近“草稿系统”,而非“打字机”。它先随机填充令牌,然后并行预测所有位置,高置信度令牌被锁定,低置信度令牌则重新加噪并继续优化,直至画布收敛。这一过程使得文本编辑、代码填充、结构化输出等任务受益,因为后期内容可影响早期选择。
基准测试显示,DiffusionGemma在数学、编程、科学推理等标准指标上略低于Gemma 4 26B,但其核心优势在于延迟:在低并发或本地推理时,速度提升显著。因此,它被定位为“速度优先”的实验模型,特别适合内联编辑、快速迭代、本地AI助手等场景。
为了让开发者自行体验,文章还提供了详细的本地运行指南。需要从llama.cpp的特定分支构建llama-diffusion-cli,并下载Unsloth提供的Q4_K_M量化GGUF模型。通过简单的命令即可在支持CUDA的系统上运行,并利用--diffusion-visual参数观察扩散过程的可视化效果。
总之,DiffusionGemma代表了一种文本生成的新范式,虽然尚未成熟,但为本地和交互式AI应用打开了新可能。其并行生成机制有望在硬件效率上带来突破,未来版本可能进一步缩小与标准模型的性能差距。