序列AI本週第878期:谷歌DeepMind首次真正突破下一代令牌生成
谷歌DeepMind發佈了DiffusionGemma,這是一種文本擴散模型,挑戰了傳統的Transformer架構。該模型不依賴從左到右逐令牌生成文本的方式,而是採用全新的生成機制。
隨着我們關於Transformer架構替代方案的系列文章接近尾聲,谷歌DeepMind剛剛發佈了這一類別中最令人印象深刻的模型之一。DiffusionGemma是一種文本擴散模型,它挑戰了傳統的Transformer模型。今天,我們將深入探討該模型的細節。
大多數語言模型像打字機一樣工作:從左到右,一個接一個地放置令牌,從不回頭修改已經生成的字符。這種架構支撐了整個現代LLM時代:GPT風格的聊天機器人、編程助手、推理模型、代理框架、企業助手。模型預測下一個令牌,附加它,更新狀態,然後重複。
谷歌的新模型DiffusionGemma提出了一個看似簡單的問題:如果文本生成不必以這種方式工作呢?
讓我們深入探討。