2026-06-23 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-24 02:06 UTC+8

Modal Auto Endpoints 釋出：最佳化推理，真正擁有

Modal 推出 Auto Endpoints，一個自服務的生產級 LLM 推理入口，讓使用者透過單一命令列即可部署前沿開放模型，並完全掌控推理程式碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平臺，提供高效能自動擴縮、自定義容器執行時和全球 GPU 資源，並透過 Modal Servers 實現超低延遲路由（5ms 開銷）。預調優的推理方案源自與頂級團隊的合作經驗，並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。

來源Modal Blog

Modal 今日正式釋出 Auto Endpoints，這是一個自服務的生產級 LLM 推理入口，旨在讓團隊在不犧牲成本效益或開發速度的前提下，真正擁有自己的推理能力。只需一條命令“modal endpoint create --name agent --model zai-org/GLM-5.2-FP8”，即可部署前沿開放模型。

Auto Endpoints 與傳統的託管推理提供商截然不同。Modal 不隱藏任何程式碼——從 GPU 選擇、區域化配置到推理引擎標誌和必要的引擎補丁，所有細節都與使用者共享。指標也完全透明：自動提供除錯推理所必需的關鍵指標，如投機解碼接受長度和每副本的引擎端令牌延遲分位數。更重要的是，沒有“聯絡銷售”按鈕，使用者可以透過 CLI 或點選操作直接部署。

這一新服務建立在 Modal 堅實的 AI 基礎設施平臺之上。該平臺已支援使用者進行蛋白質摺疊、機器人控制和音樂創作等任務。同樣的基礎元件同樣適用於 LLM 推理。Modal 無需使用者預留數月的高價 GPU 容量，而是按使用量付費，並透過高效能自動擴縮系統和自定義容器執行時按需擴充套件。使用者可以在全球範圍內使用 GPU，無需擔心容量管理。

為滿足低延遲推理的需求，Modal 還新增了 Modal Servers——一種用於超低延遲路由的新基礎元件。Modal Servers 保留了 Modal Web Functions 的彈性擴縮和深度計算能力，但消除了排隊，並預設區域化，使 HTTP 請求延遲僅為 5ms，同時不犧牲可靠性和自動擴縮。

推理引擎類似於資料庫管理系統，複雜且關鍵。Auto Endpoints 為使用者提供了效能最佳化方案：針對每個支援的模型，Modal 基於與構建最苛刻 AI 產品的團隊合作經驗，提供預調優的部署配置。使用者無需指定 GPU 型別或除錯引擎引數，直到準備好進行定製最佳化。這些配置在與專有推理提供商的直接競爭中開發，透過開源改進（如 SGLang 和 FlashAttention-4）以及全面採用投機解碼來取勝。Modal 特別使用了 Z Lab 的 DFlash 塊擴散草稿架構，並與 Z Lab 和 SGLang 團隊緊密合作，確保其在實際服務中的速度和可靠性。Modal 還訓練併發布了自家的 DFlash 草稿模型以擴大支援範圍並最佳化效能。

在可觀測性方面，Auto Endpoints 提供兩組指標：伺服器指標（如 GPU 溫度、功率和利用率）和推理指標（如首令牌延遲、令牌間延遲、排隊和投機解碼接受長度）。使用者可以在儀表板中直接檢視，或透過 OTEL 匯出。示例儀表板展示了視覺語言模型端點如何處理流量高峰：隨著負載增加，單容器延遲上升，自動擴縮系統自動啟動兩個額外副本，佇列縮小，延遲恢復正常。

Auto Endpoints 的設計是宣告式的，基於工作負載和服務級別目標。未來，Modal 計劃實現推理工程的完全自動化，包括自動推理（配置、打補丁和基準測試）、自動生成和更新草稿模型、自動蒸餾以及自動研究。目前，代理系統仍由人類工程師監控，但人工智慧的發展軌跡明確，Modal 正朝著這個方向前進。例如，草稿模型已實現 4 倍以上的加速，未來將透過自動檢測和訓練流水線進一步最佳化。

使用者可以立即嘗試 Auto Endpoints，點選連結即可擁有自己的推理能力。