序列AI本周第878期:谷歌DeepMind首次真正突破下一代令牌生成
谷歌DeepMind发布了DiffusionGemma,这是一种文本扩散模型,挑战了传统的Transformer架构。该模型不依赖从左到右逐令牌生成文本的方式,而是采用全新的生成机制。
随着我们关于Transformer架构替代方案的系列文章接近尾声,谷歌DeepMind刚刚发布了这一类别中最令人印象深刻的模型之一。DiffusionGemma是一种文本扩散模型,它挑战了传统的Transformer模型。今天,我们将深入探讨该模型的细节。
大多数语言模型像打字机一样工作:从左到右,一个接一个地放置令牌,从不回头修改已经生成的字符。这种架构支撑了整个现代LLM时代:GPT风格的聊天机器人、编程助手、推理模型、代理框架、企业助手。模型预测下一个令牌,附加它,更新状态,然后重复。
谷歌的新模型DiffusionGemma提出了一个看似简单的问题:如果文本生成不必以这种方式工作呢?
让我们深入探讨。