2026-06-20站内改写2 分钟阅读更新: 2026-06-20

基于扩散的LLM：并行生成令牌，速度更快、成本更低

Inception公司推出基于扩散模型而非自回归的下一代大语言模型，能够并行生成多个令牌，速度提升数倍，成本降低一半以上。其Mercury系列模型包括推理型dLLM和代码编辑型，已在财富500强企业部署，并获得了显著的性能提升。

Inception公司近日宣布推出基于扩散模型（Diffusion Model）的新型大语言模型（LLM），彻底颠覆了传统自回归生成方式。传统LLM逐令牌（token）按顺序生成文本，速度受限且计算成本高昂。而Inception的扩散LLM（dLLM）能够在多个位置并行生成令牌，从而在保持顶尖质量的同时，实现数倍的速度提升和超过一半的成本降低。

扩散模型原本在图像和视频生成领域大放异彩（如OpenAI的Sora和MidJourney），Inception将其创新性地应用于语言建模。这一框架不仅带来了速度优势，还提供了精细的输出控制能力，能够严格遵循特定模式或语义约束，并自然融合音频、图像、视频等多种模态。例如，用户可以要求模型按照特定JSON schema生成输出，或同时在多个候选方案中迭代优化。

Inception推出了两款主要模型：Mercury 2和Mercury Edit 2。Mercury 2被描述为“最快的推理LLM”和“首个推理dLLM”，适用于复杂应用场景如实时代理、语音交互等；Mercury Edit 2则专为代码编辑优化，体积小巧且延迟极低，适合集成到IDE中提供即时补全。两款模型的定价均为输入每百万令牌0.25美元，输出每百万令牌0.75美元，极具竞争力。

目前，这些模型已在多家财富500强企业中部署。客户反馈显示，Mercury 2在摘要生成任务中将延迟降低了82%，成本降低了90%。语音代理公司CEO Oliver Silverstein表示：“用过Mercury后，很难再回到过去。”代码编辑器联合创始人Max Brunsfeld指出，速度是保持编程心流的关键，Mercury的补全响应足够快，仿佛成为开发者思维的一部分，而不是中断。

Inception的团队汇聚了来自斯坦福、UCLA、康奈尔、谷歌DeepMind、Meta AI、微软AI和OpenAI的顶尖研究人员，在扩散模型、Flash Attention和直接偏好优化（DPO）等关键领域拥有开创性成果。公司提供企业级隐私保障，并通过AWS Bedrock和Azure Foundry等云平台提供服务，支持微调和私有部署。此外，Inception的模型兼容OpenAI API，可以无缝替代传统LLM。

这一技术突破预示着LLM推理效率的一次重大飞跃，有望重塑AI应用的开发方式和成本结构。