AI News HubLIVE
站内改写2 分钟阅读

Modal Auto Endpoints 发布:优化推理,真正拥有

Modal 推出 Auto Endpoints,一个自服务的生产级 LLM 推理入口,让用户通过单一命令行即可部署前沿开放模型,并完全掌控推理代码、指标和基础设施。该服务基于 Modal 的 AI 基础设施平台,提供高性能自动扩缩、自定义容器运行时和全球 GPU 资源,并通过 Modal Servers 实现超低延迟路由(5ms 开销)。预调优的推理方案源自与顶级团队的合作经验,并采用 DFlash 投机解码加速。未来将实现推理工程全自动化。

Modal 今日正式发布 Auto Endpoints,这是一个自服务的生产级 LLM 推理入口,旨在让团队在不牺牲成本效益或开发速度的前提下,真正拥有自己的推理能力。只需一条命令“modal endpoint create --name agent --model zai-org/GLM-5.2-FP8”,即可部署前沿开放模型。

Auto Endpoints 与传统的托管推理提供商截然不同。Modal 不隐藏任何代码——从 GPU 选择、区域化配置到推理引擎标志和必要的引擎补丁,所有细节都与用户共享。指标也完全透明:自动提供调试推理所必需的关键指标,如投机解码接受长度和每副本的引擎端令牌延迟分位数。更重要的是,没有“联系销售”按钮,用户可以通过 CLI 或点击操作直接部署。

这一新服务建立在 Modal 坚实的 AI 基础设施平台之上。该平台已支持用户进行蛋白质折叠、机器人控制和音乐创作等任务。同样的基础组件同样适用于 LLM 推理。Modal 无需用户预留数月的高价 GPU 容量,而是按使用量付费,并通过高性能自动扩缩系统和自定义容器运行时按需扩展。用户可以在全球范围内使用 GPU,无需担心容量管理。

为满足低延迟推理的需求,Modal 还新增了 Modal Servers——一种用于超低延迟路由的新基础组件。Modal Servers 保留了 Modal Web Functions 的弹性扩缩和深度计算能力,但消除了排队,并默认区域化,使 HTTP 请求延迟仅为 5ms,同时不牺牲可靠性和自动扩缩。

推理引擎类似于数据库管理系统,复杂且关键。Auto Endpoints 为用户提供了性能优化方案:针对每个支持的模型,Modal 基于与构建最苛刻 AI 产品的团队合作经验,提供预调优的部署配置。用户无需指定 GPU 类型或调试引擎参数,直到准备好进行定制优化。这些配置在与专有推理提供商的直接竞争中开发,通过开源改进(如 SGLang 和 FlashAttention-4)以及全面采用投机解码来取胜。Modal 特别使用了 Z Lab 的 DFlash 块扩散草稿架构,并与 Z Lab 和 SGLang 团队紧密合作,确保其在实际服务中的速度和可靠性。Modal 还训练并发布了自家的 DFlash 草稿模型以扩大支持范围并优化性能。

在可观测性方面,Auto Endpoints 提供两组指标:服务器指标(如 GPU 温度、功率和利用率)和推理指标(如首令牌延迟、令牌间延迟、排队和投机解码接受长度)。用户可以在仪表板中直接查看,或通过 OTEL 导出。示例仪表板展示了视觉语言模型端点如何处理流量高峰:随着负载增加,单容器延迟上升,自动扩缩系统自动启动两个额外副本,队列缩小,延迟恢复正常。

Auto Endpoints 的设计是声明式的,基于工作负载和服务级别目标。未来,Modal 计划实现推理工程的完全自动化,包括自动推理(配置、打补丁和基准测试)、自动生成和更新草稿模型、自动蒸馏以及自动研究。目前,代理系统仍由人类工程师监控,但人工智能的发展轨迹明确,Modal 正朝着这个方向前进。例如,草稿模型已实现 4 倍以上的加速,未来将通过自动检测和训练流水线进一步优化。

用户可以立即尝试 Auto Endpoints,点击链接即可拥有自己的推理能力。