2026-06-23 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-24 02:06 UTC+8

Modal Auto Endpoints 发布：优化推理，真正拥有

Modal 推出 Auto Endpoints，一个自服务的生产级 LLM 推理入口，让用户通过单一命令行即可部署前沿开放模型，并完全掌控推理代码、指标和基础设施。该服务基于 Modal 的 AI 基础设施平台，提供高性能自动扩缩、自定义容器运行时和全球 GPU 资源，并通过 Modal Servers 实现超低延迟路由（5ms 开销）。预调优的推理方案源自与顶级团队的合作经验，并采用 DFlash 投机解码加速。未来将实现推理工程全自动化。

来源Modal Blog

Modal 今日正式发布 Auto Endpoints，这是一个自服务的生产级 LLM 推理入口，旨在让团队在不牺牲成本效益或开发速度的前提下，真正拥有自己的推理能力。只需一条命令“modal endpoint create --name agent --model zai-org/GLM-5.2-FP8”，即可部署前沿开放模型。

Auto Endpoints 与传统的托管推理提供商截然不同。Modal 不隐藏任何代码——从 GPU 选择、区域化配置到推理引擎标志和必要的引擎补丁，所有细节都与用户共享。指标也完全透明：自动提供调试推理所必需的关键指标，如投机解码接受长度和每副本的引擎端令牌延迟分位数。更重要的是，没有“联系销售”按钮，用户可以通过 CLI 或点击操作直接部署。

这一新服务建立在 Modal 坚实的 AI 基础设施平台之上。该平台已支持用户进行蛋白质折叠、机器人控制和音乐创作等任务。同样的基础组件同样适用于 LLM 推理。Modal 无需用户预留数月的高价 GPU 容量，而是按使用量付费，并通过高性能自动扩缩系统和自定义容器运行时按需扩展。用户可以在全球范围内使用 GPU，无需担心容量管理。

为满足低延迟推理的需求，Modal 还新增了 Modal Servers——一种用于超低延迟路由的新基础组件。Modal Servers 保留了 Modal Web Functions 的弹性扩缩和深度计算能力，但消除了排队，并默认区域化，使 HTTP 请求延迟仅为 5ms，同时不牺牲可靠性和自动扩缩。

推理引擎类似于数据库管理系统，复杂且关键。Auto Endpoints 为用户提供了性能优化方案：针对每个支持的模型，Modal 基于与构建最苛刻 AI 产品的团队合作经验，提供预调优的部署配置。用户无需指定 GPU 类型或调试引擎参数，直到准备好进行定制优化。这些配置在与专有推理提供商的直接竞争中开发，通过开源改进（如 SGLang 和 FlashAttention-4）以及全面采用投机解码来取胜。Modal 特别使用了 Z Lab 的 DFlash 块扩散草稿架构，并与 Z Lab 和 SGLang 团队紧密合作，确保其在实际服务中的速度和可靠性。Modal 还训练并发布了自家的 DFlash 草稿模型以扩大支持范围并优化性能。

在可观测性方面，Auto Endpoints 提供两组指标：服务器指标（如 GPU 温度、功率和利用率）和推理指标（如首令牌延迟、令牌间延迟、排队和投机解码接受长度）。用户可以在仪表板中直接查看，或通过 OTEL 导出。示例仪表板展示了视觉语言模型端点如何处理流量高峰：随着负载增加，单容器延迟上升，自动扩缩系统自动启动两个额外副本，队列缩小，延迟恢复正常。

Auto Endpoints 的设计是声明式的，基于工作负载和服务级别目标。未来，Modal 计划实现推理工程的完全自动化，包括自动推理（配置、打补丁和基准测试）、自动生成和更新草稿模型、自动蒸馏以及自动研究。目前，代理系统仍由人类工程师监控，但人工智能的发展轨迹明确，Modal 正朝着这个方向前进。例如，草稿模型已实现 4 倍以上的加速，未来将通过自动检测和训练流水线进一步优化。

用户可以立即尝试 Auto Endpoints，点击链接即可拥有自己的推理能力。