AI News HubLIVE
公开文章 20采集文章 23可信度 82刷新频率 120 分钟
健康状态 健康来源类型 官方原文权限 官方原文最近入库 2026-06-25ID modal-blog运行状态 已启用

Official AI infrastructure blog; confirm reuse terms before full body display.

最新公开文章

基于Pingora、Envoy和Spanner的无服务器服务器路由

Modal团队深入介绍了其新型超低延迟Serverless Servers的设计原理和实现细节,该服务针对LLM推理等对延迟敏感的应用进行了优化。文章解释了为何选择构建自己的代理层fprs,以及如何通过Pingora库、Envoy边缘代理和Spanner全局数据库实现无网络调用热路径、动态域名关联和自动缩放。

  • Modal推出Serverless Servers,专为超低延迟HTTP/WebSocket/gRPC流量设计。
  • 与Web Functions不同,Servers牺牲了排队和重试以换取更低延迟。
站内正文

通过推测解码实现最先进的推理延迟

Modal与Decagon合作,利用推测解码将推理延迟降低100毫秒,超越了专有推理提供商。本文详细介绍了通过优化通信延迟、主机开销、预填充延迟和解码延迟来实现低延迟的完整策略,并重点展示了为特定应用定制推测模型(DFlash技术)如何带来显著性能提升。

  • Modal Auto Endpoints通过推测解码实现低延迟推理,关键优化是使用Blackwell GPU、SGLang引擎和Modal服务器。
  • 推测解码通过并行处理多个推测令牌来减少解码阶段延迟,且效率主要取决于接受长度。
站内正文

Modal Auto Endpoints 发布:优化推理,真正拥有

Modal 推出 Auto Endpoints,一个自服务的生产级 LLM 推理入口,让用户通过单一命令行即可部署前沿开放模型,并完全掌控推理代码、指标和基础设施。该服务基于 Modal 的 AI 基础设施平台,提供高性能自动扩缩、自定义容器运行时和全球 GPU 资源,并通过 Modal Servers 实现超低延迟路由(5ms 开销)。预调优的推理方案源自与顶级团队的合作经验,并采用 DFlash 投机解码加速。未来将实现推理工程全自动化。

  • Auto Endpoints 支持一键部署开放模型(如 GLM 5.2),用户拥有完整推理栈。
  • 提供引擎级可观测性指标,包括服务器和推理指标。
站内正文

投机解码:一切皆是推测

Modal团队全面推崇投机解码技术,认为它是当前最关键的高交互推理优化手段,能带来2-3倍甚至更高的加速效果。他们与Z Lab合作训练了针对Qwen系列模型的最先进DFlash投机解码器,额外提升5-20%的速度,并强调了投机解码在长上下文任务中的优势。本文详细解释了投机解码的原理、与传统优化的对比,以及通过模拟和数学模型展示的加速效果。

  • 投机解码是目前唯一重要的推理引擎优化,能实现数倍加速而非微小百分比提升。
  • Modal与Z Lab合作发布了多款Qwen模型的DFlash投机解码器,额外提速5-20%。
站内正文

强化学习是一个基础设施问题

本文探讨了强化学习在大型语言模型后训练中的实际应用,指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验,介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。

  • 强化学习后训练LLM的瓶颈是基础设施,包括训练引擎、推理沙箱和环境隔离。
  • 多节点训练中,权重同步耗时巨大,RDMA和增量压缩显著降低延迟。
站内正文

面向人类和智能体的基于角色的访问控制

Modal 为 Teams 和 Enterprise 用户推出了基于角色的访问控制(RBAC),围绕环境(Environments)构建,支持精细权限管理,确保智能体和人类的安全协作。

  • RBAC 现已面向所有 Team 和 Enterprise 计划用户开放,基于环境(Environments)实现安全边界。
  • 受限环境(Restricted Environments)可精确控制谁能在其中部署和管理资源。
站内正文

Modal C轮融资:以46.5亿美元估值筹集3.55亿美元

Modal 公司宣布完成3.55亿美元C轮融资,估值达46.5亿美元,由 General Catalyst 和 Redpoint 领投。自去年9月以来,公司收入增长五倍,年化收入突破3亿美元。Modal 是为AI工作负载量身打造的云平台,提供低延迟弹性推理、动态智能体运行时、强化学习和大规模批处理等原生能力。本轮融资将用于进一步投资低延迟推理、训练-推理闭环以及智能体计算层。

  • Modal 以46.5亿美元估值筹集3.55亿美元C轮融资,General Catalyst 和 Redpoint 领投,现有投资者全部跟投。
  • 自2025年9月以来,公司收入增长五倍,年化收入超过3亿美元。
站内正文

在Applied Compute扩展强化学习

Applied Compute 使用强化学习为企业(如 DoorDash、Cognition、Mercor)训练定制 AI 代理,并在 Modal 上运行。其核心理念是“特定智能”:通过专有数据训练,每次使用都能改进。本文介绍了他们的 RL 训练循环、基础设施选择以及 Modal 如何提供灵活性、性能和可靠性。

  • Applied Compute 专注于后训练阶段,认为这是企业 AI 竞争的关键。
  • 他们使用强化学习训练具有“特定智能”的代理,例如为 DoorDash 优化商家入驻模型。
站内正文

推出结合Modal Sandboxes的Claude托管代理

Anthropic与Modal宣布推出Claude托管代理与Modal Sandboxes的集成,允许开发者在自己托管的可定制沙盒中运行工具调用,具有快速启动、成本效益和可扩展性。早期采用者包括Mason AI、DoorDash和Blend。

  • Claude托管代理现在与Modal Sandboxes集成,支持自定义、可扩展的代理执行。
  • Modal提供快速启动、自定义镜像、持久化选项和成本高效的爆发定价。
站内正文

如何实现真正的无服务器GPU

Modal 通过四项关键技术优化,将 GPU 推理服务器实例的启动时间从数十分钟缩短到几十秒,实现了真正的无服务器 GPU。

  • 维护空闲 GPU 缓冲池,消除实例分配延迟
  • 自定义内容寻址文件系统,实现容器镜像按需加载
站内正文

用一个简单的Python字典将多模态推理性能提升超10%

Modal团队通过分析SGLang调度器的性能瓶颈,发现频繁的CUDA IPC池句柄重新打开操作导致主机开销过高。他们通过一个简单的Python字典缓存替换了重复操作,在Qwen2.5-VL-3B模型上实现了吞吐量提升16.2%、延迟降低超10%的效果。该优化已合并至SGLang v0.5.10版本。

  • SGLang调度器在处理多模态输入时,因重复打开CUDA IPC池句柄造成主机开销瓶颈。
  • 通过一个Python字典缓存池句柄,避免了冗余的_shared_cuda调用,减少调度器CPU时间。
站内正文

在Modal上构建强化学习定理证明工作流

AE Studio利用Modal平台,通过进化策略(ES)和GRPO两种强化学习方法训练语言模型进行数学定理证明。他们使用Lean验证器,并借助Modal的并行GPU、沙盒隔离和卷存储功能高效运行实验。结果显示ES在某些场景下媲美甚至超越GRPO,且成本显著降低。

  • AE Studio在Modal上实现了进化策略(ES)用于定理证明,并与GRPO进行了对比。
  • 利用Modal的.map()并行GPU推断、沙盒隔离验证和卷存储,大幅简化了基础设施搭建。
站内正文

使用Modal和OpenAI Agents SDK构建

Modal成为OpenAI Agents SDK的官方沙箱提供商。本文展示了如何从零开始构建自定义的编码代理框架,集成Modal沙箱以实现安全、并行和可扩展的自动化任务,以Parameter Golf挑战为例。

  • Modal是OpenAI Agents SDK的官方沙箱提供商,提供隔离、可扩展的运行环境。
  • 文章逐步演示了构建代理框架,包括基础代理、沙箱化、记忆、子代理、异步并行和快照功能。
站内正文

自动缩放自动研究:在Modal上为您的智能体提供弹性GPU

Modal与Autoresearch集成,提供弹性GPU扩展,使AI智能体能够动态调配计算资源。在Parameter Golf挑战中,一个智能体在238个GPU小时内运行了113个实验,与单个工作站相比实现了5倍加速,同时仅使用了专用集群资源的一小部分。

  • Modal使智能体能够无缝地从单个GPU扩展到数十个H100,适应工作负载需求。
  • Parameter Golf智能体在完成核心训练运行时比单个工作站快5倍,资源利用率高效。
站内正文

Butter 加入 Modal

Modal 宣布收购 AI 沙箱技术公司 Butter,其创始人 Erik Dunteman 和研究员 Raymond Tana 将加入 Modal 沙箱团队。Butter 在代理工程领域经验丰富,最近用 Zig 语言开发了轻量级临时沙箱 bVisor。此次收购旨在加强 Modal 沙箱产品的能力。

  • Butter 团队加入 Modal,专注代理工程和沙箱产品升级。
  • Butter 创始人 Erik Dunteman 曾共同创办 Banana,与 Modal 有长期合作关系。
站内正文

Physical Intelligence 的机器人实时推理

Physical Intelligence 使用 Modal 平台,通过基于 QUIC 的专业传输协议,实现了低延迟的机器人远程实时推理,仅增加 10-15 毫秒网络开销,并能灵活扩展至更大模型。

  • Physical Intelligence 开发了视觉-语言-动作(VLA)模型,用于通用机器人智能。
  • Modal 的隧道服务通过 TCP 提供低延迟,但机器人控制回路要求更稳定的通信。
站内正文

产品更新:RTX Pro 6000 Blackwell、Command K、Sandbox FS API 等

Modal 发布多项产品更新,包括 NVIDIA RTX Pro 6000 Blackwell GPU 支持、Dashboard 命令面板 Command K、Sandbox 文件系统 API Beta、SDK 改进以及多个客户案例与社区内容。

  • RTX Pro 6000 Blackwell 上线,96GB VRAM,适合推理和微调。
  • Command K 快捷键提供导航和对象跳转功能。
站内正文

Runway 选择 Modal 为 Runway Characters 提供实时推理支持

Runway 与 Modal 合作,利用 Modal 的无服务器计算平台为 Runway Characters 提供实时视频推理。Runway Characters 是一个实时视频代理 API,可从单张图像生成可定制的数字角色,无需微调。该技术已应用于多个领域,包括客户支持、内部培训等。Modal 的基础设施使 Runway 能够在 30 天内从概念验证到生产,并支持全球低延迟部署。

  • Runway 与 Modal 合作,用于 Runway Characters 的实时推理。
  • Runway Characters 是基于 GWM-1 模型的实时视频代理 API。
站内正文

Doppel如何利用Modal消除机器学习基础设施负担

Doppel是一家AI网络安全平台,通过迁移至Modal,显著提升了模型训练和推理的效率。训练方面,实现了并行实验,缩短了反馈循环;推理方面,简化了部署流程,实现了自动伸缩,降低了运维成本。

  • Doppel利用Modal实现了训练实验的并行化,加速了模型迭代。
  • Modal的镜像层缓存和持久卷将模型部署构建时间缩短了10倍。
站内正文

产品更新:目录快照、GLM-5、计费更新等等

二月份产品更新摘要:推出目录快照功能,提供免费GLM-5端点,改进了计费可见性(新UI和API),SDK更新(变更日志命令、仪表板URL等),以及关于Sandbox的网络研讨会和AI研究案例。

  • 目录快照允许对特定目录进行快照,独立于基础镜像,分离系统依赖与应用代码。
  • 与Z.ai合作提供免费GLM-5端点,截止4月底,适用于编码代理。
站内正文

全部来源