Modal Auto Endpoints 釋出:最佳化推理,真正擁有
Modal 推出 Auto Endpoints,一個自服務的生產級 LLM 推理入口,讓使用者透過單一命令列即可部署前沿開放模型,並完全掌控推理程式碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平臺,提供高效能自動擴縮、自定義容器執行時和全球 GPU 資源,並透過 Modal Servers 實現超低延遲路由(5ms 開銷)。預調優的推理方案源自與頂級團隊的合作經驗,並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。
Modal 今日正式釋出 Auto Endpoints,這是一個自服務的生產級 LLM 推理入口,旨在讓團隊在不犧牲成本效益或開發速度的前提下,真正擁有自己的推理能力。只需一條命令“modal endpoint create --name agent --model zai-org/GLM-5.2-FP8”,即可部署前沿開放模型。
Auto Endpoints 與傳統的託管推理提供商截然不同。Modal 不隱藏任何程式碼——從 GPU 選擇、區域化配置到推理引擎標誌和必要的引擎補丁,所有細節都與使用者共享。指標也完全透明:自動提供除錯推理所必需的關鍵指標,如投機解碼接受長度和每副本的引擎端令牌延遲分位數。更重要的是,沒有“聯絡銷售”按鈕,使用者可以透過 CLI 或點選操作直接部署。
這一新服務建立在 Modal 堅實的 AI 基礎設施平臺之上。該平臺已支援使用者進行蛋白質摺疊、機器人控制和音樂創作等任務。同樣的基礎元件同樣適用於 LLM 推理。Modal 無需使用者預留數月的高價 GPU 容量,而是按使用量付費,並透過高效能自動擴縮系統和自定義容器執行時按需擴充套件。使用者可以在全球範圍內使用 GPU,無需擔心容量管理。
為滿足低延遲推理的需求,Modal 還新增了 Modal Servers——一種用於超低延遲路由的新基礎元件。Modal Servers 保留了 Modal Web Functions 的彈性擴縮和深度計算能力,但消除了排隊,並預設區域化,使 HTTP 請求延遲僅為 5ms,同時不犧牲可靠性和自動擴縮。
推理引擎類似於資料庫管理系統,複雜且關鍵。Auto Endpoints 為使用者提供了效能最佳化方案:針對每個支援的模型,Modal 基於與構建最苛刻 AI 產品的團隊合作經驗,提供預調優的部署配置。使用者無需指定 GPU 型別或除錯引擎引數,直到準備好進行定製最佳化。這些配置在與專有推理提供商的直接競爭中開發,透過開源改進(如 SGLang 和 FlashAttention-4)以及全面採用投機解碼來取勝。Modal 特別使用了 Z Lab 的 DFlash 塊擴散草稿架構,並與 Z Lab 和 SGLang 團隊緊密合作,確保其在實際服務中的速度和可靠性。Modal 還訓練併發布了自家的 DFlash 草稿模型以擴大支援範圍並最佳化效能。
在可觀測性方面,Auto Endpoints 提供兩組指標:伺服器指標(如 GPU 溫度、功率和利用率)和推理指標(如首令牌延遲、令牌間延遲、排隊和投機解碼接受長度)。使用者可以在儀表板中直接檢視,或透過 OTEL 匯出。示例儀表板展示了視覺語言模型端點如何處理流量高峰:隨著負載增加,單容器延遲上升,自動擴縮系統自動啟動兩個額外副本,佇列縮小,延遲恢復正常。
Auto Endpoints 的設計是宣告式的,基於工作負載和服務級別目標。未來,Modal 計劃實現推理工程的完全自動化,包括自動推理(配置、打補丁和基準測試)、自動生成和更新草稿模型、自動蒸餾以及自動研究。目前,代理系統仍由人類工程師監控,但人工智慧的發展軌跡明確,Modal 正朝著這個方向前進。例如,草稿模型已實現 4 倍以上的加速,未來將透過自動檢測和訓練流水線進一步最佳化。
使用者可以立即嘗試 Auto Endpoints,點選連結即可擁有自己的推理能力。