序列AI本週第878期:谷歌DeepMind首次真正突破下一代令牌生成
谷歌DeepMind釋出了DiffusionGemma,這是一種文本擴散模型,挑戰了傳統的Transformer架構。該模型不依賴從左到右逐令牌生成文本的方式,而是採用全新的生成機制。
隨著我們關於Transformer架構替代方案的系列文章接近尾聲,谷歌DeepMind剛剛釋出了這一類別中最令人印象深刻的模型之一。DiffusionGemma是一種文本擴散模型,它挑戰了傳統的Transformer模型。今天,我們將深入探討該模型的細節。
大多數語言模型像打字機一樣工作:從左到右,一個接一個地放置令牌,從不回頭修改已經生成的字元。這種架構支撐了整個現代LLM時代:GPT風格的聊天機器人、程式設計助手、推理模型、代理框架、企業助手。模型預測下一個令牌,附加它,更新狀態,然後重複。
谷歌的新模型DiffusionGemma提出了一個看似簡單的問題:如果文本生成不必以這種方式工作呢?
讓我們深入探討。