Modal Blog AI 新闻来源

公开文章 20采集文章 23可信度 82刷新频率 120 分钟

健康状态健康来源类型官方原文权限 官方原文最近入库 2026-06-25ID modal-blog运行状态 已启用

Official AI infrastructure blog; confirm reuse terms before full body display.

最新公开文章

基于Pingora、Envoy和Spanner的无服务器服务器路由

2026-06-25 08:00 UTC+8

Modal团队深入介绍了其新型超低延迟Serverless Servers的设计原理和实现细节，该服务针对LLM推理等对延迟敏感的应用进行了优化。文章解释了为何选择构建自己的代理层fprs，以及如何通过Pingora库、Envoy边缘代理和Spanner全局数据库实现无网络调用热路径、动态域名关联和自动缩放。

Modal推出Serverless Servers，专为超低延迟HTTP/WebSocket/gRPC流量设计。
与Web Functions不同，Servers牺牲了排队和重试以换取更低延迟。

通过推测解码实现最先进的推理延迟

2026-06-24 08:00 UTC+8

Modal与Decagon合作，利用推测解码将推理延迟降低100毫秒，超越了专有推理提供商。本文详细介绍了通过优化通信延迟、主机开销、预填充延迟和解码延迟来实现低延迟的完整策略，并重点展示了为特定应用定制推测模型（DFlash技术）如何带来显著性能提升。

Modal Auto Endpoints通过推测解码实现低延迟推理，关键优化是使用Blackwell GPU、SGLang引擎和Modal服务器。
推测解码通过并行处理多个推测令牌来减少解码阶段延迟，且效率主要取决于接受长度。

Modal Auto Endpoints 发布：优化推理，真正拥有

2026-06-23 08:00 UTC+8

Modal 推出 Auto Endpoints，一个自服务的生产级 LLM 推理入口，让用户通过单一命令行即可部署前沿开放模型，并完全掌控推理代码、指标和基础设施。该服务基于 Modal 的 AI 基础设施平台，提供高性能自动扩缩、自定义容器运行时和全球 GPU 资源，并通过 Modal Servers 实现超低延迟路由（5ms 开销）。预调优的推理方案源自与顶级团队的合作经验，并采用 DFlash 投机解码加速。未来将实现推理工程全自动化。

Auto Endpoints 支持一键部署开放模型（如 GLM 5.2），用户拥有完整推理栈。
提供引擎级可观测性指标，包括服务器和推理指标。

投机解码：一切皆是推测

2026-06-19 08:00 UTC+8

Modal团队全面推崇投机解码技术，认为它是当前最关键的高交互推理优化手段，能带来2-3倍甚至更高的加速效果。他们与Z Lab合作训练了针对Qwen系列模型的最先进DFlash投机解码器，额外提升5-20%的速度，并强调了投机解码在长上下文任务中的优势。本文详细解释了投机解码的原理、与传统优化的对比，以及通过模拟和数学模型展示的加速效果。

投机解码是目前唯一重要的推理引擎优化，能实现数倍加速而非微小百分比提升。
Modal与Z Lab合作发布了多款Qwen模型的DFlash投机解码器，额外提速5-20%。

强化学习是一个基础设施问题

2026-05-29 08:00 UTC+8

本文探讨了强化学习在大型语言模型后训练中的实际应用，指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验，介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。

强化学习后训练LLM的瓶颈是基础设施，包括训练引擎、推理沙箱和环境隔离。
多节点训练中，权重同步耗时巨大，RDMA和增量压缩显著降低延迟。

面向人类和智能体的基于角色的访问控制

2026-05-27 08:00 UTC+8

Modal 为 Teams 和 Enterprise 用户推出了基于角色的访问控制（RBAC），围绕环境（Environments）构建，支持精细权限管理，确保智能体和人类的安全协作。

RBAC 现已面向所有 Team 和 Enterprise 计划用户开放，基于环境（Environments）实现安全边界。
受限环境（Restricted Environments）可精确控制谁能在其中部署和管理资源。

Modal C轮融资：以46.5亿美元估值筹集3.55亿美元

2026-05-21 08:00 UTC+8

Modal 公司宣布完成3.55亿美元C轮融资，估值达46.5亿美元，由 General Catalyst 和 Redpoint 领投。自去年9月以来，公司收入增长五倍，年化收入突破3亿美元。Modal 是为AI工作负载量身打造的云平台，提供低延迟弹性推理、动态智能体运行时、强化学习和大规模批处理等原生能力。本轮融资将用于进一步投资低延迟推理、训练-推理闭环以及智能体计算层。

Modal 以46.5亿美元估值筹集3.55亿美元C轮融资，General Catalyst 和 Redpoint 领投，现有投资者全部跟投。
自2025年9月以来，公司收入增长五倍，年化收入超过3亿美元。

在Applied Compute扩展强化学习

2026-05-20 08:00 UTC+8

Applied Compute 使用强化学习为企业（如 DoorDash、Cognition、Mercor）训练定制 AI 代理，并在 Modal 上运行。其核心理念是“特定智能”：通过专有数据训练，每次使用都能改进。本文介绍了他们的 RL 训练循环、基础设施选择以及 Modal 如何提供灵活性、性能和可靠性。

Applied Compute 专注于后训练阶段，认为这是企业 AI 竞争的关键。
他们使用强化学习训练具有“特定智能”的代理，例如为 DoorDash 优化商家入驻模型。

推出结合Modal Sandboxes的Claude托管代理

2026-05-19 08:00 UTC+8

Anthropic与Modal宣布推出Claude托管代理与Modal Sandboxes的集成，允许开发者在自己托管的可定制沙盒中运行工具调用，具有快速启动、成本效益和可扩展性。早期采用者包括Mason AI、DoorDash和Blend。

Claude托管代理现在与Modal Sandboxes集成，支持自定义、可扩展的代理执行。
Modal提供快速启动、自定义镜像、持久化选项和成本高效的爆发定价。

如何实现真正的无服务器GPU

2026-05-12 20:00 UTC+8

Modal 通过四项关键技术优化，将 GPU 推理服务器实例的启动时间从数十分钟缩短到几十秒，实现了真正的无服务器 GPU。

维护空闲 GPU 缓冲池，消除实例分配延迟
自定义内容寻址文件系统，实现容器镜像按需加载

用一个简单的Python字典将多模态推理性能提升超10%

2026-05-04 08:00 UTC+8

Modal团队通过分析SGLang调度器的性能瓶颈，发现频繁的CUDA IPC池句柄重新打开操作导致主机开销过高。他们通过一个简单的Python字典缓存替换了重复操作，在Qwen2.5-VL-3B模型上实现了吞吐量提升16.2%、延迟降低超10%的效果。该优化已合并至SGLang v0.5.10版本。

SGLang调度器在处理多模态输入时，因重复打开CUDA IPC池句柄造成主机开销瓶颈。
通过一个Python字典缓存池句柄，避免了冗余的_shared_cuda调用，减少调度器CPU时间。

在Modal上构建强化学习定理证明工作流

2026-04-29 08:00 UTC+8

AE Studio利用Modal平台，通过进化策略（ES）和GRPO两种强化学习方法训练语言模型进行数学定理证明。他们使用Lean验证器，并借助Modal的并行GPU、沙盒隔离和卷存储功能高效运行实验。结果显示ES在某些场景下媲美甚至超越GRPO，且成本显著降低。

AE Studio在Modal上实现了进化策略（ES）用于定理证明，并与GRPO进行了对比。
利用Modal的.map()并行GPU推断、沙盒隔离验证和卷存储，大幅简化了基础设施搭建。

使用Modal和OpenAI Agents SDK构建

2026-04-15 08:00 UTC+8

Modal成为OpenAI Agents SDK的官方沙箱提供商。本文展示了如何从零开始构建自定义的编码代理框架，集成Modal沙箱以实现安全、并行和可扩展的自动化任务，以Parameter Golf挑战为例。

Modal是OpenAI Agents SDK的官方沙箱提供商，提供隔离、可扩展的运行环境。
文章逐步演示了构建代理框架，包括基础代理、沙箱化、记忆、子代理、异步并行和快照功能。

自动缩放自动研究：在Modal上为您的智能体提供弹性GPU

2026-04-14 08:00 UTC+8

Modal与Autoresearch集成，提供弹性GPU扩展，使AI智能体能够动态调配计算资源。在Parameter Golf挑战中，一个智能体在238个GPU小时内运行了113个实验，与单个工作站相比实现了5倍加速，同时仅使用了专用集群资源的一小部分。

Modal使智能体能够无缝地从单个GPU扩展到数十个H100，适应工作负载需求。
Parameter Golf智能体在完成核心训练运行时比单个工作站快5倍，资源利用率高效。

Butter 加入 Modal

2026-04-10 08:00 UTC+8

Modal 宣布收购 AI 沙箱技术公司 Butter，其创始人 Erik Dunteman 和研究员 Raymond Tana 将加入 Modal 沙箱团队。Butter 在代理工程领域经验丰富，最近用 Zig 语言开发了轻量级临时沙箱 bVisor。此次收购旨在加强 Modal 沙箱产品的能力。

Butter 团队加入 Modal，专注代理工程和沙箱产品升级。
Butter 创始人 Erik Dunteman 曾共同创办 Banana，与 Modal 有长期合作关系。

Physical Intelligence 的机器人实时推理

2026-04-08 08:00 UTC+8

Physical Intelligence 使用 Modal 平台，通过基于 QUIC 的专业传输协议，实现了低延迟的机器人远程实时推理，仅增加 10-15 毫秒网络开销，并能灵活扩展至更大模型。

Physical Intelligence 开发了视觉-语言-动作（VLA）模型，用于通用机器人智能。
Modal 的隧道服务通过 TCP 提供低延迟，但机器人控制回路要求更稳定的通信。

产品更新：RTX Pro 6000 Blackwell、Command K、Sandbox FS API 等

2026-04-07 08:00 UTC+8

Modal 发布多项产品更新，包括 NVIDIA RTX Pro 6000 Blackwell GPU 支持、Dashboard 命令面板 Command K、Sandbox 文件系统 API Beta、SDK 改进以及多个客户案例与社区内容。

RTX Pro 6000 Blackwell 上线，96GB VRAM，适合推理和微调。
Command K 快捷键提供导航和对象跳转功能。

Runway 选择 Modal 为 Runway Characters 提供实时推理支持

2026-03-26 08:00 UTC+8

Runway 与 Modal 合作，利用 Modal 的无服务器计算平台为 Runway Characters 提供实时视频推理。Runway Characters 是一个实时视频代理 API，可从单张图像生成可定制的数字角色，无需微调。该技术已应用于多个领域，包括客户支持、内部培训等。Modal 的基础设施使 Runway 能够在 30 天内从概念验证到生产，并支持全球低延迟部署。

Runway 与 Modal 合作，用于 Runway Characters 的实时推理。
Runway Characters 是基于 GWM-1 模型的实时视频代理 API。

Doppel如何利用Modal消除机器学习基础设施负担

2026-03-25 08:00 UTC+8

Doppel是一家AI网络安全平台，通过迁移至Modal，显著提升了模型训练和推理的效率。训练方面，实现了并行实验，缩短了反馈循环；推理方面，简化了部署流程，实现了自动伸缩，降低了运维成本。

Doppel利用Modal实现了训练实验的并行化，加速了模型迭代。
Modal的镜像层缓存和持久卷将模型部署构建时间缩短了10倍。

产品更新：目录快照、GLM-5、计费更新等等

2026-03-04 08:00 UTC+8

二月份产品更新摘要：推出目录快照功能，提供免费GLM-5端点，改进了计费可见性（新UI和API），SDK更新（变更日志命令、仪表板URL等），以及关于Sandbox的网络研讨会和AI研究案例。

目录快照允许对特定目录进行快照，独立于基础镜像，分离系统依赖与应用代码。
与Z.ai合作提供免费GLM-5端点，截止4月底，适用于编码代理。

Modal Blog