基於擴散的LLM:並行生成令牌,速度更快、成本更低
Inception公司推出基於擴散模型而非自迴歸的下一代大語言模型,能夠並行生成多個令牌,速度提升數倍,成本降低一半以上。其Mercury系列模型包括推理型dLLM和程式碼編輯型,已在財富500強企業部署,並獲得了顯著的效能提升。
Inception公司近日宣佈推出基於擴散模型(Diffusion Model)的新型大語言模型(LLM),徹底顛覆了傳統自迴歸生成方式。傳統LLM逐令牌(token)按順序生成文本,速度受限且計算成本高昂。而Inception的擴散LLM(dLLM)能夠在多個位置並行生成令牌,從而在保持頂尖質量的同時,實現數倍的速度提升和超過一半的成本降低。
擴散模型原本在影像和影片生成領域大放異彩(如OpenAI的Sora和MidJourney),Inception將其創新性地應用於語言建模。這一框架不僅帶來了速度優勢,還提供了精細的輸出控制能力,能夠嚴格遵循特定模式或語義約束,並自然融合音訊、影像、影片等多種模態。例如,使用者可以要求模型按照特定JSON schema生成輸出,或同時在多個候選方案中迭代最佳化。
Inception推出了兩款主要模型:Mercury 2和Mercury Edit 2。Mercury 2被描述為“最快的推理LLM”和“首個推理dLLM”,適用於複雜應用場景如即時代理、語音互動等;Mercury Edit 2則專為程式碼編輯最佳化,體積小巧且延遲極低,適合整合到IDE中提供即時補全。兩款模型的定價均為輸入每百萬令牌0.25美元,輸出每百萬令牌0.75美元,極具競爭力。
目前,這些模型已在多家財富500強企業中部署。客戶反饋顯示,Mercury 2在摘要生成任務中將延遲降低了82%,成本降低了90%。語音代理公司CEO Oliver Silverstein表示:“用過Mercury後,很難再回到過去。”程式碼編輯器聯合創始人Max Brunsfeld指出,速度是保持程式設計心流的關鍵,Mercury的補全響應足夠快,彷彿成為開發者思維的一部分,而不是中斷。
Inception的團隊匯聚了來自斯坦福、UCLA、康奈爾、谷歌DeepMind、Meta AI、微軟AI和OpenAI的頂尖研究人員,在擴散模型、Flash Attention和直接偏好最佳化(DPO)等關鍵領域擁有開創性成果。公司提供企業級隱私保障,並透過AWS Bedrock和Azure Foundry等雲平臺提供服務,支援微調和私有部署。此外,Inception的模型相容OpenAI API,可以無縫替代傳統LLM。
這一技術突破預示著LLM推理效率的一次重大飛躍,有望重塑AI應用的開發方式和成本結構。