2026-06-20站内改写2 分鐘閱讀更新: 2026-06-20

基於擴散的LLM：並行生成令牌，速度更快、成本更低

Inception公司推出基於擴散模型而非自迴歸的下一代大語言模型，能夠並行生成多個令牌，速度提升數倍，成本降低一半以上。其Mercury系列模型包括推理型dLLM和程式碼編輯型，已在財富500強企業部署，並獲得了顯著的效能提升。

Inception公司近日宣佈推出基於擴散模型（Diffusion Model）的新型大語言模型（LLM），徹底顛覆了傳統自迴歸生成方式。傳統LLM逐令牌（token）按順序生成文本，速度受限且計算成本高昂。而Inception的擴散LLM（dLLM）能夠在多個位置並行生成令牌，從而在保持頂尖質量的同時，實現數倍的速度提升和超過一半的成本降低。

擴散模型原本在影像和影片生成領域大放異彩（如OpenAI的Sora和MidJourney），Inception將其創新性地應用於語言建模。這一框架不僅帶來了速度優勢，還提供了精細的輸出控制能力，能夠嚴格遵循特定模式或語義約束，並自然融合音訊、影像、影片等多種模態。例如，使用者可以要求模型按照特定JSON schema生成輸出，或同時在多個候選方案中迭代最佳化。

Inception推出了兩款主要模型：Mercury 2和Mercury Edit 2。Mercury 2被描述為“最快的推理LLM”和“首個推理dLLM”，適用於複雜應用場景如即時代理、語音互動等；Mercury Edit 2則專為程式碼編輯最佳化，體積小巧且延遲極低，適合整合到IDE中提供即時補全。兩款模型的定價均為輸入每百萬令牌0.25美元，輸出每百萬令牌0.75美元，極具競爭力。

目前，這些模型已在多家財富500強企業中部署。客戶反饋顯示，Mercury 2在摘要生成任務中將延遲降低了82%，成本降低了90%。語音代理公司CEO Oliver Silverstein表示：“用過Mercury後，很難再回到過去。”程式碼編輯器聯合創始人Max Brunsfeld指出，速度是保持程式設計心流的關鍵，Mercury的補全響應足夠快，彷彿成為開發者思維的一部分，而不是中斷。

Inception的團隊匯聚了來自斯坦福、UCLA、康奈爾、谷歌DeepMind、Meta AI、微軟AI和OpenAI的頂尖研究人員，在擴散模型、Flash Attention和直接偏好最佳化（DPO）等關鍵領域擁有開創性成果。公司提供企業級隱私保障，並透過AWS Bedrock和Azure Foundry等雲平臺提供服務，支援微調和私有部署。此外，Inception的模型相容OpenAI API，可以無縫替代傳統LLM。

這一技術突破預示著LLM推理效率的一次重大飛躍，有望重塑AI應用的開發方式和成本結構。