2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

首個推理擴散LLM Mercury 2現已登陸Baseten

Inception推出的Mercury 2是目前速度最快的推理LLM，採用擴散架構而非傳統自迴歸方式，在標準NVIDIA GPU上可達到每秒1000 token以上的生成速度，速度是同級模型的5-10倍，成本降低一半以上，質量與Haiku和GPT-5 mini相當。Augment Code在生產環境中使用後，成本降低90%，延遲降低82%。Baseten為其提供企業級推理平台支持。

來源Baseten Blog

AI模型領域迎來重大突破：Inception Labs的Mercury 2——首個基於擴散架構的推理大語言模型（dLLM）——現已通過Baseten推理平台正式面向開發者開放。作為首個上線生產級擴散LLM的推理平台，Baseten讓開發者無需定製芯片即可享受實時級別的推理速度。

Mercury 2的運行速度超過每秒1000個token，在廣泛部署的NVIDIA GPU上（包括Hopper H100和Blackwell），其成本不到同類模型的一半，而質量與Haiku和GPT-5 mini相當。這意味着過去需要專用AI推理芯片才能實現的實時速度，如今在通用硬件上即可達成。

傳統自迴歸LLM逐個生成token，每個token依賴前一個，本質上存在速度上限。雖然業界通過投機解碼、多頭架構等技巧試圖突破，但這些都只是推理階段的補丁，並未消除根本瓶頸。擴散LLM則截然不同：它先草擬完整輸出，然後通過多次並行傳遞逐步優化整個序列。這種速度源於模型本身的設計，而非後處理優化，並且為未來改進留下了更廣闊的空間。

Augment Code是最早將Mercury 2投入生產的團隊之一。該AI編程平台在上下文壓縮這一關鍵任務中，將Mercury 2作為專用子模型，結果成本降低90%，延遲降低82%——壓縮步驟從約150秒縮短至27秒，快至幾乎無感知。在MCP服務器工具搜索中，Mercury 2能在不到一秒內返回摘要，讓智能體決定下一步調用哪個工具時從拖沓變為流暢。

"我們的目標是從根本上重新定義LLM的經濟性和性能，使其更有用。創造突破性架構只是成功的一半，推向市場需要同樣創新的基礎設施夥伴。Baseten是推理領域的黃金標準，與之合作讓我們的客户在獲得原始並行速度的同時，也享受企業級隔離、全球規模和合規能力。"——Inception團隊

Baseten為Mercury 2提供的解決方案包括：基於NVIDIA H100、Blackwell等GPU的部署，採用持續容量與突發擴展相結合的方式應對流量高峯；Baseten Frontier Gateway實現按客户速率限制、請求優先級和API路由；完整的指標與可觀測性；以及針對語音等超低延遲工作負載的Blackwell集羣，目標端到端延遲150-250毫秒。

Mercury 2的啓示在於：現代AI應用正向多模型系統演進，並非每個調用都需要最昂貴的模型。理解用户意圖的部分可能需要Claude，但路由、壓縮、搜索和摘要等任務需要的是快速、經濟且足夠智能的模型——這正是Mercury 2的價值所在。

目前Mercury 2已在Baseten上線。如果你正在構建多智能體系統、編碼工具、語音應用，或者當前將所有流量都路由到單個昂貴模型，都值得嘗試Mercury 2。Baseten正在提供免費概念驗證（POC）申請。