2026-06-23 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-24 02:06 UTC+8

Modal Auto Endpoints 發佈：優化推理，真正擁有

Modal 推出 Auto Endpoints，一個自服務的生產級 LLM 推理入口，讓用户通過單一命令行即可部署前沿開放模型，並完全掌控推理代碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平台，提供高性能自動擴縮、自定義容器運行時和全球 GPU 資源，並通過 Modal Servers 實現超低延遲路由（5ms 開銷）。預調優的推理方案源自與頂級團隊的合作經驗，並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。

來源Modal Blog

Modal 今日正式發佈 Auto Endpoints，這是一個自服務的生產級 LLM 推理入口，旨在讓團隊在不犧牲成本效益或開發速度的前提下，真正擁有自己的推理能力。只需一條命令“modal endpoint create --name agent --model zai-org/GLM-5.2-FP8”，即可部署前沿開放模型。

Auto Endpoints 與傳統的託管推理提供商截然不同。Modal 不隱藏任何代碼——從 GPU 選擇、區域化配置到推理引擎標誌和必要的引擎補丁，所有細節都與用户共享。指標也完全透明：自動提供調試推理所必需的關鍵指標，如投機解碼接受長度和每副本的引擎端令牌延遲分位數。更重要的是，沒有“聯繫銷售”按鈕，用户可以通過 CLI 或點擊操作直接部署。

這一新服務建立在 Modal 堅實的 AI 基礎設施平台之上。該平台已支持用户進行蛋白質摺疊、機器人控制和音樂創作等任務。同樣的基礎組件同樣適用於 LLM 推理。Modal 無需用户預留數月的高價 GPU 容量，而是按使用量付費，並通過高性能自動擴縮系統和自定義容器運行時按需擴展。用户可以在全球範圍內使用 GPU，無需擔心容量管理。

為滿足低延遲推理的需求，Modal 還新增了 Modal Servers——一種用於超低延遲路由的新基礎組件。Modal Servers 保留了 Modal Web Functions 的彈性擴縮和深度計算能力，但消除了排隊，並默認區域化，使 HTTP 請求延遲僅為 5ms，同時不犧牲可靠性和自動擴縮。

推理引擎類似於數據庫管理系統，複雜且關鍵。Auto Endpoints 為用户提供了性能優化方案：針對每個支持的模型，Modal 基於與構建最苛刻 AI 產品的團隊合作經驗，提供預調優的部署配置。用户無需指定 GPU 類型或調試引擎參數，直到準備好進行定製優化。這些配置在與專有推理提供商的直接競爭中開發，通過開源改進（如 SGLang 和 FlashAttention-4）以及全面採用投機解碼來取勝。Modal 特別使用了 Z Lab 的 DFlash 塊擴散草稿架構，並與 Z Lab 和 SGLang 團隊緊密合作，確保其在實際服務中的速度和可靠性。Modal 還訓練併發布了自家的 DFlash 草稿模型以擴大支持範圍並優化性能。

在可觀測性方面，Auto Endpoints 提供兩組指標：服務器指標（如 GPU 温度、功率和利用率）和推理指標（如首令牌延遲、令牌間延遲、排隊和投機解碼接受長度）。用户可以在儀表板中直接查看，或通過 OTEL 導出。示例儀表板展示了視覺語言模型端點如何處理流量高峯：隨着負載增加，單容器延遲上升，自動擴縮系統自動啓動兩個額外副本，隊列縮小，延遲恢復正常。

Auto Endpoints 的設計是聲明式的，基於工作負載和服務級別目標。未來，Modal 計劃實現推理工程的完全自動化，包括自動推理（配置、打補丁和基準測試）、自動生成和更新草稿模型、自動蒸餾以及自動研究。目前，代理系統仍由人類工程師監控，但人工智能的發展軌跡明確，Modal 正朝着這個方向前進。例如，草稿模型已實現 4 倍以上的加速，未來將通過自動檢測和訓練流水線進一步優化。

用户可以立即嘗試 Auto Endpoints，點擊鏈接即可擁有自己的推理能力。