AI News HubLIVE
站内改写3 分钟阅读

谷歌AI发布DiffusionGemma:26B MoE开放模型,采用文本扩散技术实现最高4倍生成速度

DiffusionGemma是Google DeepMind推出的实验性开放文本生成模型,采用文本扩散而非标准自回归解码,在专用GPU上可实现最高4倍生成加速。模型参数量26B(MoE架构,推理时仅激活3.8B),基于Gemma 4骨干,支持多模态输入(文本、图像、视频),上下文窗口256K,覆盖140+语言,采用Apache 2.0许可。

来源MarkTechPost作者: Asif Razzaq

谷歌AI团队(包括Google DeepMind研究人员)近日发布了DiffusionGemma,一款实验性的开放文本生成模型。该模型采用文本扩散技术替代标准的自回归解码,并在宽松的Apache 2.0许可下发布。谷歌将其定位于面向开发者和研究人员,适用于对速度敏感的交互式本地工作流,例如内联编辑、快速迭代以及生成非线性文本结构。

当前多数语言模型是自回归的,即逐个从左到右生成token,每个新token依赖于前一个。DiffusionGemma则不同:它同时并行生成整块文本。在专用GPU上,这可以实现最高4倍的生成加速。

什么是DiffusionGemma?

DiffusionGemma是一个260亿参数的混合专家(MoE)模型,推理时仅激活38亿参数。它基于Gemma 4骨干网络(具体为26B-A4B架构),并在其上集成了扩散头。模型支持多模态输入(文本、图像、视频交错输入)并生成文本输出。上下文窗口为256K tokens,覆盖140多种语言。量化后模型仅需18GB显存,可装入高端消费级GPU。在单个NVIDIA H100上,它达到每秒1000+ tokens;在NVIDIA GeForce RTX 5090上,达到每秒700+ tokens。

谷歌明确指出了取舍:DiffusionGemma优先考虑速度和并行布局生成,但其整体输出质量低于标准Gemma 4。对于追求最高质量的生成任务,谷歌仍推荐使用自回归的Gemma 4。

文本扩散的工作原理

文本扩散借鉴了AI图像生成器的核心理念:从视觉噪声开始迭代细化。DiffusionGemma将相同模式应用于文本生成。

过程分为三个概念阶段:首先,模型从一个随机占位符token的画布开始;其次,它在画布上多次迭代,锁定高置信度的token并将其用作上下文;最后,文本收敛为最终输出。谷歌将核心机制称为“均匀状态扩散”,高置信度的token帮助在去噪过程中解析相邻位置,整个序列经过几次迭代后最终确定。

实践中,模型并行地对256-token的画布进行去噪,每次前向传递最终确定约15-20个token。这种并行性带来了吞吐量的提升。模型在去噪期间使用双向注意力,画布上的每个token可以关注所有其他token,这与仅能向后看的前一token的自回归模型形成鲜明对比。双向上下文支持实时自我修正:如果某个token的置信度下降,采样器可以对其重新噪声化,并在后续迭代中替换该token。自回归模型无法做到这一点,因为它们一旦生成token就固定下来。

架构特点

技术上的进步在于硬件利用率。对于本地GPU推理,主要瓶颈是内存带宽:自回归模型每个token都反复从内存加载权重。在单用户服务中,GPU大部分时间处于等待状态。DiffusionGemma将瓶颈从内存带宽转移到计算——它并行草拟并细化256-token的画布,使空闲的张量核心获得大量并行工作负载。

推理期间模型交替使用两种注意力模式:预填充使用因果注意力来输入提示并写入KV缓存;去噪使用双向注意力来细化画布。对于更长的输出,DiffusionGemma采用块自回归扩散:一旦256-token块完全去噪,就将其提交到KV缓存,然后根据先前历史启动新画布,将并行块速度与顺序自回归稳定性相结合。

该架构与Gemma 4 26B A4B共享相同骨干,开发者主要需实现去噪步骤,从而简化了与现有服务框架的集成。

一个明显的例子是谷歌开发者指南中的数独展示。自回归模型难以处理严格的多变量约束谜题,基础DiffusionGemma模型解决数独谜题的成功率约为0%。经过简单的JAX监督微调后,正确率提升至80%,且微调后的模型更早停止,减少了推理步骤。

使用案例

DiffusionGemma针对特定工作负载,而非通用生产质量。谷歌及生态合作伙伴强调了几个实际应用场景:内联编辑和代码补全(双向注意力适合非线性文本结构);快速迭代(低本地延迟支持交互式单用户开发者循环);长上下文文档分析(256K窗口支持大输入处理);OCR和文档解析(多模态输入处理图像和扫描文档);代码生成、工具调用和智能体工作流。

一个限制因素贯穿所有这些场景:加速是针对本地、低并发推理设计的。在高QPS云服务中,自回归模型能有效利用计算资源,并行解码的收益递减且可能提高服务成本。

DiffusionGemma vs 标准Gemma 4

| 属性 | DiffusionGemma (26B-A4B) | 标准Gemma 4 (26B-A4B) | | --- | --- | --- | | 生成方式 | 离散文本扩散(并行) | 自回归(逐token) | | 解码瓶颈 | 计算受限 | 内存带宽受限 | | 并行单元 | 每步256-token画布 | 每步一个token | | 解码注意力 | 双向 | 因果(仅向后) | | 自我修正 | 是(通过重新噪声化) | 否(token一旦生成即固定) | | 专有GPU速度 | 最高4倍加速 | 基线 | | H100吞吐量 | 1000+ tokens/s | 更低(基线) | | RTX 5090吞吐量 | 700+ tokens/s | 更低(基线) | | 输出质量 | 低于Gemma 4 | 更高,推荐用于生产 | | 最佳场景 | 本地、低并发、交互式 | 高质量和高QPS云服务 | | 许可 | Apache 2.0 | Gemma条款 |

关键要点

  • DiffusionGemma是26B MoE开放模型(3.8B活跃参数),通过并行扩散而非逐token生成文本。
  • 在专用GPU上运行速度最高提升4倍:H100上1000+ tokens/s,RTX 5090上700+ tokens/s。
  • 256-token画布上的双向注意力支持实时自我修正,不同于自回归模型。
  • 量化后仅需18GB VRAM,在vLLM、Transformers、MLX和Unsloth中提供首日支持。
  • 该模型为实验性,质量低于标准Gemma 4;谷歌建议生产环境使用Gemma 4。