AI News HubLIVE
站內改寫2 分鐘閱讀

Modal Auto Endpoints 發佈:優化推理,真正擁有

Modal 推出 Auto Endpoints,一個自服務的生產級 LLM 推理入口,讓用户通過單一命令行即可部署前沿開放模型,並完全掌控推理代碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平台,提供高性能自動擴縮、自定義容器運行時和全球 GPU 資源,並通過 Modal Servers 實現超低延遲路由(5ms 開銷)。預調優的推理方案源自與頂級團隊的合作經驗,並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。

Modal 今日正式發佈 Auto Endpoints,這是一個自服務的生產級 LLM 推理入口,旨在讓團隊在不犧牲成本效益或開發速度的前提下,真正擁有自己的推理能力。只需一條命令“modal endpoint create --name agent --model zai-org/GLM-5.2-FP8”,即可部署前沿開放模型。

Auto Endpoints 與傳統的託管推理提供商截然不同。Modal 不隱藏任何代碼——從 GPU 選擇、區域化配置到推理引擎標誌和必要的引擎補丁,所有細節都與用户共享。指標也完全透明:自動提供調試推理所必需的關鍵指標,如投機解碼接受長度和每副本的引擎端令牌延遲分位數。更重要的是,沒有“聯繫銷售”按鈕,用户可以通過 CLI 或點擊操作直接部署。

這一新服務建立在 Modal 堅實的 AI 基礎設施平台之上。該平台已支持用户進行蛋白質摺疊、機器人控制和音樂創作等任務。同樣的基礎組件同樣適用於 LLM 推理。Modal 無需用户預留數月的高價 GPU 容量,而是按使用量付費,並通過高性能自動擴縮系統和自定義容器運行時按需擴展。用户可以在全球範圍內使用 GPU,無需擔心容量管理。

為滿足低延遲推理的需求,Modal 還新增了 Modal Servers——一種用於超低延遲路由的新基礎組件。Modal Servers 保留了 Modal Web Functions 的彈性擴縮和深度計算能力,但消除了排隊,並默認區域化,使 HTTP 請求延遲僅為 5ms,同時不犧牲可靠性和自動擴縮。

推理引擎類似於數據庫管理系統,複雜且關鍵。Auto Endpoints 為用户提供了性能優化方案:針對每個支持的模型,Modal 基於與構建最苛刻 AI 產品的團隊合作經驗,提供預調優的部署配置。用户無需指定 GPU 類型或調試引擎參數,直到準備好進行定製優化。這些配置在與專有推理提供商的直接競爭中開發,通過開源改進(如 SGLang 和 FlashAttention-4)以及全面採用投機解碼來取勝。Modal 特別使用了 Z Lab 的 DFlash 塊擴散草稿架構,並與 Z Lab 和 SGLang 團隊緊密合作,確保其在實際服務中的速度和可靠性。Modal 還訓練併發布了自家的 DFlash 草稿模型以擴大支持範圍並優化性能。

在可觀測性方面,Auto Endpoints 提供兩組指標:服務器指標(如 GPU 温度、功率和利用率)和推理指標(如首令牌延遲、令牌間延遲、排隊和投機解碼接受長度)。用户可以在儀表板中直接查看,或通過 OTEL 導出。示例儀表板展示了視覺語言模型端點如何處理流量高峯:隨着負載增加,單容器延遲上升,自動擴縮系統自動啓動兩個額外副本,隊列縮小,延遲恢復正常。

Auto Endpoints 的設計是聲明式的,基於工作負載和服務級別目標。未來,Modal 計劃實現推理工程的完全自動化,包括自動推理(配置、打補丁和基準測試)、自動生成和更新草稿模型、自動蒸餾以及自動研究。目前,代理系統仍由人類工程師監控,但人工智能的發展軌跡明確,Modal 正朝着這個方向前進。例如,草稿模型已實現 4 倍以上的加速,未來將通過自動檢測和訓練流水線進一步優化。

用户可以立即嘗試 Auto Endpoints,點擊鏈接即可擁有自己的推理能力。