首个推理扩散LLM Mercury 2现已登陆Baseten
Inception推出的Mercury 2是目前速度最快的推理LLM,采用扩散架构而非传统自回归方式,在标准NVIDIA GPU上可达到每秒1000 token以上的生成速度,速度是同级模型的5-10倍,成本降低一半以上,质量与Haiku和GPT-5 mini相当。Augment Code在生产环境中使用后,成本降低90%,延迟降低82%。Baseten为其提供企业级推理平台支持。
AI模型领域迎来重大突破:Inception Labs的Mercury 2——首个基于扩散架构的推理大语言模型(dLLM)——现已通过Baseten推理平台正式面向开发者开放。作为首个上线生产级扩散LLM的推理平台,Baseten让开发者无需定制芯片即可享受实时级别的推理速度。
Mercury 2的运行速度超过每秒1000个token,在广泛部署的NVIDIA GPU上(包括Hopper H100和Blackwell),其成本不到同类模型的一半,而质量与Haiku和GPT-5 mini相当。这意味着过去需要专用AI推理芯片才能实现的实时速度,如今在通用硬件上即可达成。
传统自回归LLM逐个生成token,每个token依赖前一个,本质上存在速度上限。虽然业界通过投机解码、多头架构等技巧试图突破,但这些都只是推理阶段的补丁,并未消除根本瓶颈。扩散LLM则截然不同:它先草拟完整输出,然后通过多次并行传递逐步优化整个序列。这种速度源于模型本身的设计,而非后处理优化,并且为未来改进留下了更广阔的空间。
Augment Code是最早将Mercury 2投入生产的团队之一。该AI编程平台在上下文压缩这一关键任务中,将Mercury 2作为专用子模型,结果成本降低90%,延迟降低82%——压缩步骤从约150秒缩短至27秒,快至几乎无感知。在MCP服务器工具搜索中,Mercury 2能在不到一秒内返回摘要,让智能体决定下一步调用哪个工具时从拖沓变为流畅。
"我们的目标是从根本上重新定义LLM的经济性和性能,使其更有用。创造突破性架构只是成功的一半,推向市场需要同样创新的基础设施伙伴。Baseten是推理领域的黄金标准,与之合作让我们的客户在获得原始并行速度的同时,也享受企业级隔离、全球规模和合规能力。"——Inception团队
Baseten为Mercury 2提供的解决方案包括:基于NVIDIA H100、Blackwell等GPU的部署,采用持续容量与突发扩展相结合的方式应对流量高峰;Baseten Frontier Gateway实现按客户速率限制、请求优先级和API路由;完整的指标与可观测性;以及针对语音等超低延迟工作负载的Blackwell集群,目标端到端延迟150-250毫秒。
Mercury 2的启示在于:现代AI应用正向多模型系统演进,并非每个调用都需要最昂贵的模型。理解用户意图的部分可能需要Claude,但路由、压缩、搜索和摘要等任务需要的是快速、经济且足够智能的模型——这正是Mercury 2的价值所在。
目前Mercury 2已在Baseten上线。如果你正在构建多智能体系统、编码工具、语音应用,或者当前将所有流量都路由到单个昂贵模型,都值得尝试Mercury 2。Baseten正在提供免费概念验证(POC)申请。