2026-06-12站内改写2 分钟阅读更新: 2026-06-12

首个推理扩散LLM Mercury 2现已登陆Baseten

Inception推出的Mercury 2是目前速度最快的推理LLM，采用扩散架构而非传统自回归方式，在标准NVIDIA GPU上可达到每秒1000 token以上的生成速度，速度是同级模型的5-10倍，成本降低一半以上，质量与Haiku和GPT-5 mini相当。Augment Code在生产环境中使用后，成本降低90%，延迟降低82%。Baseten为其提供企业级推理平台支持。

来源Baseten Blog

AI模型领域迎来重大突破：Inception Labs的Mercury 2——首个基于扩散架构的推理大语言模型（dLLM）——现已通过Baseten推理平台正式面向开发者开放。作为首个上线生产级扩散LLM的推理平台，Baseten让开发者无需定制芯片即可享受实时级别的推理速度。

Mercury 2的运行速度超过每秒1000个token，在广泛部署的NVIDIA GPU上（包括Hopper H100和Blackwell），其成本不到同类模型的一半，而质量与Haiku和GPT-5 mini相当。这意味着过去需要专用AI推理芯片才能实现的实时速度，如今在通用硬件上即可达成。

传统自回归LLM逐个生成token，每个token依赖前一个，本质上存在速度上限。虽然业界通过投机解码、多头架构等技巧试图突破，但这些都只是推理阶段的补丁，并未消除根本瓶颈。扩散LLM则截然不同：它先草拟完整输出，然后通过多次并行传递逐步优化整个序列。这种速度源于模型本身的设计，而非后处理优化，并且为未来改进留下了更广阔的空间。

Augment Code是最早将Mercury 2投入生产的团队之一。该AI编程平台在上下文压缩这一关键任务中，将Mercury 2作为专用子模型，结果成本降低90%，延迟降低82%——压缩步骤从约150秒缩短至27秒，快至几乎无感知。在MCP服务器工具搜索中，Mercury 2能在不到一秒内返回摘要，让智能体决定下一步调用哪个工具时从拖沓变为流畅。

"我们的目标是从根本上重新定义LLM的经济性和性能，使其更有用。创造突破性架构只是成功的一半，推向市场需要同样创新的基础设施伙伴。Baseten是推理领域的黄金标准，与之合作让我们的客户在获得原始并行速度的同时，也享受企业级隔离、全球规模和合规能力。"——Inception团队

Baseten为Mercury 2提供的解决方案包括：基于NVIDIA H100、Blackwell等GPU的部署，采用持续容量与突发扩展相结合的方式应对流量高峰；Baseten Frontier Gateway实现按客户速率限制、请求优先级和API路由；完整的指标与可观测性；以及针对语音等超低延迟工作负载的Blackwell集群，目标端到端延迟150-250毫秒。

Mercury 2的启示在于：现代AI应用正向多模型系统演进，并非每个调用都需要最昂贵的模型。理解用户意图的部分可能需要Claude，但路由、压缩、搜索和摘要等任务需要的是快速、经济且足够智能的模型——这正是Mercury 2的价值所在。

目前Mercury 2已在Baseten上线。如果你正在构建多智能体系统、编码工具、语音应用，或者当前将所有流量都路由到单个昂贵模型，都值得尝试Mercury 2。Baseten正在提供免费概念验证（POC）申请。