2026-06-11站内改写1 分钟阅读更新: 2026-06-12

DiffusionGemma：谷歌基于扩散的开源模型，实现更快的文本生成

谷歌DeepMind的DiffusionGemma是一款实验性的开源模型，采用扩散方式并行生成文本块，相比传统的自回归模型，在本地推理时速度更快。它基于Gemma 4 26B A4B MoE架构，牺牲部分质量换取速度，特别适用于交互式编辑等任务。本文解释了其架构、文本扩散的工作原理、基准测试结果，并提供了使用llama.cpp在本地运行的分步指南。

来源Analytics Vidhya作者: Harsh Mishra

谷歌DeepMind推出了DiffusionGemma，这是一种基于扩散思想的文本生成模型，旨在解决传统自回归模型在本地推理中的效率问题。传统大型语言模型逐令牌生成文本，虽然质量高，但在单用户场景下，GPU常因内存带宽瓶颈而利用率不足。DiffusionGemma采用完全不同的策略：在一个256令牌的“画布”上并行生成和优化文本块，通过多次去噪步骤逐步提高质量。

该模型基于Gemma 4 26B A4B混合专家（MoE）架构，总参数25.2B，推理时激活约3.8B参数。其架构分为三部分：编码器负责处理提示并生成KV缓存；去噪解码器采用双向注意力，在画布内允许任意位置相互关注；多画布采样则通过块自回归方式处理长文本，每个256令牌块独立扩散，然后拼接完整输出。

与自回归模型的对比中，DiffusionGemma的生成方式更接近“草稿系统”，而非“打字机”。它先随机填充令牌，然后并行预测所有位置，高置信度令牌被锁定，低置信度令牌则重新加噪并继续优化，直至画布收敛。这一过程使得文本编辑、代码填充、结构化输出等任务受益，因为后期内容可影响早期选择。

基准测试显示，DiffusionGemma在数学、编程、科学推理等标准指标上略低于Gemma 4 26B，但其核心优势在于延迟：在低并发或本地推理时，速度提升显著。因此，它被定位为“速度优先”的实验模型，特别适合内联编辑、快速迭代、本地AI助手等场景。

为了让开发者自行体验，文章还提供了详细的本地运行指南。需要从llama.cpp的特定分支构建llama-diffusion-cli，并下载Unsloth提供的Q4_K_M量化GGUF模型。通过简单的命令即可在支持CUDA的系统上运行，并利用--diffusion-visual参数观察扩散过程的可视化效果。

总之，DiffusionGemma代表了一种文本生成的新范式，虽然尚未成熟，但为本地和交互式AI应用打开了新可能。其并行生成机制有望在硬件效率上带来突破，未来版本可能进一步缩小与标准模型的性能差距。