基于扩散的LLM:并行生成令牌,速度更快、成本更低
Inception公司推出基于扩散模型而非自回归的下一代大语言模型,能够并行生成多个令牌,速度提升数倍,成本降低一半以上。其Mercury系列模型包括推理型dLLM和代码编辑型,已在财富500强企业部署,并获得了显著的性能提升。
Inception公司近日宣布推出基于扩散模型(Diffusion Model)的新型大语言模型(LLM),彻底颠覆了传统自回归生成方式。传统LLM逐令牌(token)按顺序生成文本,速度受限且计算成本高昂。而Inception的扩散LLM(dLLM)能够在多个位置并行生成令牌,从而在保持顶尖质量的同时,实现数倍的速度提升和超过一半的成本降低。
扩散模型原本在图像和视频生成领域大放异彩(如OpenAI的Sora和MidJourney),Inception将其创新性地应用于语言建模。这一框架不仅带来了速度优势,还提供了精细的输出控制能力,能够严格遵循特定模式或语义约束,并自然融合音频、图像、视频等多种模态。例如,用户可以要求模型按照特定JSON schema生成输出,或同时在多个候选方案中迭代优化。
Inception推出了两款主要模型:Mercury 2和Mercury Edit 2。Mercury 2被描述为“最快的推理LLM”和“首个推理dLLM”,适用于复杂应用场景如实时代理、语音交互等;Mercury Edit 2则专为代码编辑优化,体积小巧且延迟极低,适合集成到IDE中提供即时补全。两款模型的定价均为输入每百万令牌0.25美元,输出每百万令牌0.75美元,极具竞争力。
目前,这些模型已在多家财富500强企业中部署。客户反馈显示,Mercury 2在摘要生成任务中将延迟降低了82%,成本降低了90%。语音代理公司CEO Oliver Silverstein表示:“用过Mercury后,很难再回到过去。”代码编辑器联合创始人Max Brunsfeld指出,速度是保持编程心流的关键,Mercury的补全响应足够快,仿佛成为开发者思维的一部分,而不是中断。
Inception的团队汇聚了来自斯坦福、UCLA、康奈尔、谷歌DeepMind、Meta AI、微软AI和OpenAI的顶尖研究人员,在扩散模型、Flash Attention和直接偏好优化(DPO)等关键领域拥有开创性成果。公司提供企业级隐私保障,并通过AWS Bedrock和Azure Foundry等云平台提供服务,支持微调和私有部署。此外,Inception的模型兼容OpenAI API,可以无缝替代传统LLM。
这一技术突破预示着LLM推理效率的一次重大飞跃,有望重塑AI应用的开发方式和成本结构。