2026-06-10站内改写3 分钟阅读更新: 2026-06-12

谷歌AI发布DiffusionGemma：26B MoE开放模型，采用文本扩散技术实现最高4倍生成速度

DiffusionGemma是Google DeepMind推出的实验性开放文本生成模型，采用文本扩散而非标准自回归解码，在专用GPU上可实现最高4倍生成加速。模型参数量26B（MoE架构，推理时仅激活3.8B），基于Gemma 4骨干，支持多模态输入（文本、图像、视频），上下文窗口256K，覆盖140+语言，采用Apache 2.0许可。

来源MarkTechPost作者: Asif Razzaq

谷歌AI团队（包括Google DeepMind研究人员）近日发布了DiffusionGemma，一款实验性的开放文本生成模型。该模型采用文本扩散技术替代标准的自回归解码，并在宽松的Apache 2.0许可下发布。谷歌将其定位于面向开发者和研究人员，适用于对速度敏感的交互式本地工作流，例如内联编辑、快速迭代以及生成非线性文本结构。

当前多数语言模型是自回归的，即逐个从左到右生成token，每个新token依赖于前一个。DiffusionGemma则不同：它同时并行生成整块文本。在专用GPU上，这可以实现最高4倍的生成加速。

什么是DiffusionGemma？

DiffusionGemma是一个260亿参数的混合专家（MoE）模型，推理时仅激活38亿参数。它基于Gemma 4骨干网络（具体为26B-A4B架构），并在其上集成了扩散头。模型支持多模态输入（文本、图像、视频交错输入）并生成文本输出。上下文窗口为256K tokens，覆盖140多种语言。量化后模型仅需18GB显存，可装入高端消费级GPU。在单个NVIDIA H100上，它达到每秒1000+ tokens；在NVIDIA GeForce RTX 5090上，达到每秒700+ tokens。

谷歌明确指出了取舍：DiffusionGemma优先考虑速度和并行布局生成，但其整体输出质量低于标准Gemma 4。对于追求最高质量的生成任务，谷歌仍推荐使用自回归的Gemma 4。

文本扩散的工作原理

文本扩散借鉴了AI图像生成器的核心理念：从视觉噪声开始迭代细化。DiffusionGemma将相同模式应用于文本生成。

过程分为三个概念阶段：首先，模型从一个随机占位符token的画布开始；其次，它在画布上多次迭代，锁定高置信度的token并将其用作上下文；最后，文本收敛为最终输出。谷歌将核心机制称为“均匀状态扩散”，高置信度的token帮助在去噪过程中解析相邻位置，整个序列经过几次迭代后最终确定。

实践中，模型并行地对256-token的画布进行去噪，每次前向传递最终确定约15-20个token。这种并行性带来了吞吐量的提升。模型在去噪期间使用双向注意力，画布上的每个token可以关注所有其他token，这与仅能向后看的前一token的自回归模型形成鲜明对比。双向上下文支持实时自我修正：如果某个token的置信度下降，采样器可以对其重新噪声化，并在后续迭代中替换该token。自回归模型无法做到这一点，因为它们一旦生成token就固定下来。

架构特点

技术上的进步在于硬件利用率。对于本地GPU推理，主要瓶颈是内存带宽：自回归模型每个token都反复从内存加载权重。在单用户服务中，GPU大部分时间处于等待状态。DiffusionGemma将瓶颈从内存带宽转移到计算——它并行草拟并细化256-token的画布，使空闲的张量核心获得大量并行工作负载。

推理期间模型交替使用两种注意力模式：预填充使用因果注意力来输入提示并写入KV缓存；去噪使用双向注意力来细化画布。对于更长的输出，DiffusionGemma采用块自回归扩散：一旦256-token块完全去噪，就将其提交到KV缓存，然后根据先前历史启动新画布，将并行块速度与顺序自回归稳定性相结合。

该架构与Gemma 4 26B A4B共享相同骨干，开发者主要需实现去噪步骤，从而简化了与现有服务框架的集成。

一个明显的例子是谷歌开发者指南中的数独展示。自回归模型难以处理严格的多变量约束谜题，基础DiffusionGemma模型解决数独谜题的成功率约为0%。经过简单的JAX监督微调后，正确率提升至80%，且微调后的模型更早停止，减少了推理步骤。

使用案例

DiffusionGemma针对特定工作负载，而非通用生产质量。谷歌及生态合作伙伴强调了几个实际应用场景：内联编辑和代码补全（双向注意力适合非线性文本结构）；快速迭代（低本地延迟支持交互式单用户开发者循环）；长上下文文档分析（256K窗口支持大输入处理）；OCR和文档解析（多模态输入处理图像和扫描文档）；代码生成、工具调用和智能体工作流。

一个限制因素贯穿所有这些场景：加速是针对本地、低并发推理设计的。在高QPS云服务中，自回归模型能有效利用计算资源，并行解码的收益递减且可能提高服务成本。

DiffusionGemma vs 标准Gemma 4

| 属性 | DiffusionGemma (26B-A4B) | 标准Gemma 4 (26B-A4B) | | --- | --- | --- | | 生成方式 | 离散文本扩散（并行） | 自回归（逐token） | | 解码瓶颈 | 计算受限 | 内存带宽受限 | | 并行单元 | 每步256-token画布 | 每步一个token | | 解码注意力 | 双向 | 因果（仅向后） | | 自我修正 | 是（通过重新噪声化） | 否（token一旦生成即固定） | | 专有GPU速度 | 最高4倍加速 | 基线 | | H100吞吐量 | 1000+ tokens/s | 更低（基线） | | RTX 5090吞吐量 | 700+ tokens/s | 更低（基线） | | 输出质量 | 低于Gemma 4 | 更高，推荐用于生产 | | 最佳场景 | 本地、低并发、交互式 | 高质量和高QPS云服务 | | 许可 | Apache 2.0 | Gemma条款 |

关键要点

DiffusionGemma是26B MoE开放模型（3.8B活跃参数），通过并行扩散而非逐token生成文本。
在专用GPU上运行速度最高提升4倍：H100上1000+ tokens/s，RTX 5090上700+ tokens/s。
256-token画布上的双向注意力支持实时自我修正，不同于自回归模型。
量化后仅需18GB VRAM，在vLLM、Transformers、MLX和Unsloth中提供首日支持。
该模型为实验性，质量低于标准Gemma 4；谷歌建议生产环境使用Gemma 4。