AI News HubLIVE
站内改写2 分鐘閱讀

首個推理擴散LLM Mercury 2現已登陸Baseten

Inception推出的Mercury 2是目前速度最快的推理LLM,採用擴散架構而非傳統自迴歸方式,在標準NVIDIA GPU上可達到每秒1000 token以上的生成速度,速度是同級模型的5-10倍,成本降低一半以上,質量與Haiku和GPT-5 mini相當。Augment Code在生產環境中使用後,成本降低90%,延遲降低82%。Baseten為其提供企業級推理平台支持。

AI模型領域迎來重大突破:Inception Labs的Mercury 2——首個基於擴散架構的推理大語言模型(dLLM)——現已通過Baseten推理平台正式面向開發者開放。作為首個上線生產級擴散LLM的推理平台,Baseten讓開發者無需定製芯片即可享受實時級別的推理速度。

Mercury 2的運行速度超過每秒1000個token,在廣泛部署的NVIDIA GPU上(包括Hopper H100和Blackwell),其成本不到同類模型的一半,而質量與Haiku和GPT-5 mini相當。這意味着過去需要專用AI推理芯片才能實現的實時速度,如今在通用硬件上即可達成。

傳統自迴歸LLM逐個生成token,每個token依賴前一個,本質上存在速度上限。雖然業界通過投機解碼、多頭架構等技巧試圖突破,但這些都只是推理階段的補丁,並未消除根本瓶頸。擴散LLM則截然不同:它先草擬完整輸出,然後通過多次並行傳遞逐步優化整個序列。這種速度源於模型本身的設計,而非後處理優化,並且為未來改進留下了更廣闊的空間。

Augment Code是最早將Mercury 2投入生產的團隊之一。該AI編程平台在上下文壓縮這一關鍵任務中,將Mercury 2作為專用子模型,結果成本降低90%,延遲降低82%——壓縮步驟從約150秒縮短至27秒,快至幾乎無感知。在MCP服務器工具搜索中,Mercury 2能在不到一秒內返回摘要,讓智能體決定下一步調用哪個工具時從拖沓變為流暢。

"我們的目標是從根本上重新定義LLM的經濟性和性能,使其更有用。創造突破性架構只是成功的一半,推向市場需要同樣創新的基礎設施夥伴。Baseten是推理領域的黃金標準,與之合作讓我們的客户在獲得原始並行速度的同時,也享受企業級隔離、全球規模和合規能力。"——Inception團隊

Baseten為Mercury 2提供的解決方案包括:基於NVIDIA H100、Blackwell等GPU的部署,採用持續容量與突發擴展相結合的方式應對流量高峯;Baseten Frontier Gateway實現按客户速率限制、請求優先級和API路由;完整的指標與可觀測性;以及針對語音等超低延遲工作負載的Blackwell集羣,目標端到端延遲150-250毫秒。

Mercury 2的啓示在於:現代AI應用正向多模型系統演進,並非每個調用都需要最昂貴的模型。理解用户意圖的部分可能需要Claude,但路由、壓縮、搜索和摘要等任務需要的是快速、經濟且足夠智能的模型——這正是Mercury 2的價值所在。

目前Mercury 2已在Baseten上線。如果你正在構建多智能體系統、編碼工具、語音應用,或者當前將所有流量都路由到單個昂貴模型,都值得嘗試Mercury 2。Baseten正在提供免費概念驗證(POC)申請。