2026-05-20 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

在Applied Compute扩展强化学习

Applied Compute 使用强化学习为企业（如 DoorDash、Cognition、Mercor）训练定制 AI 代理，并在 Modal 上运行。其核心理念是“特定智能”：通过专有数据训练，每次使用都能改进。本文介绍了他们的 RL 训练循环、基础设施选择以及 Modal 如何提供灵活性、性能和可靠性。

来源Modal Blog

Applied Compute 是一家专注于为企业训练定制 AI 代理的公司，其客户包括 DoorDash、Cognition 和 Mercor。创始团队来自 OpenAI 的 Codex 和 o1 项目，他们创立公司的核心理念是：随着前沿模型商品化，竞争层将转移到后训练阶段。拥有自己的奖励函数、评估和持续学习循环的企业将领先于其他企业。他们将这种方法称为“特定智能”，而 Modal 帮助实现这一使命。

Applied Compute 构建的代理具有“特定智能”：AI 为一家公司定制，基于其专有数据训练，并且每次使用时都会改进。其核心训练机制是强化学习（RL）。RL 让模型在可重放的环境中多次尝试任务，根据奖励函数对每次尝试进行评分，并更新权重以偏向奖励函数所 favor 的行为。例如，为 DoorDash 训练了一个最先进的商家入驻模型，能够将拍摄的菜单照片转化为 DoorDash 生产使用的结构化店面表示；为 Cognition 训练了一个自定义的 bug 捕获代理，能够在开发者保存提交后几秒内发现问题。

选择合适的底层基础设施至关重要。典型的 RL 训练循环包括三个需要持续协作的组件：部署（在可重放环境中尝试任务）、评估（根据奖励函数评分）和推理（在生产中提供服务并捕获新轨迹）。每个组件都有不同的基础设施需求：部署是突发性且 CPU 密集的，评分需要大规模并行，推理需要优化 GPU 访问。Modal 为每个阶段提供了合适的原语，使它们能够共享状态并保持循环紧密。

在确定平台之前，Applied Compute 评估了几乎所有市场上的沙箱和执行提供商。Modal 是唯一一个在每个阶段提供适当原语且保持低成本的选项。Patil 表示：“Modal 非常灵活，结构适合构建复杂环境，并且非常注重性能和可靠性。”

RL 训练需要模型并行尝试任务数千次，每次尝试都在独立的临时环境中。这些环境通常模拟整个生产系统（如 Salesforce、Slack、内部 API），具有足够高的保真度，使代理无法区分它们与真实服务。训练-测试不匹配是部署 RL 系统中最常见的失败模式之一。Modal 沙箱提供快速启动、完全文件系统和网络隔离以及快照语义的临时容器，使 Applied Compute 能够构建任意复杂的生产系统模拟，同时保持训练循环依赖的确定性。

性能延迟是另一个关键因素。部署需要同时运行推理和沙箱。当数千个沙箱在训练运行期间并行启动时（通常持续一两个小时），P50 和 P90 启动延迟直接转化为推理侧的 GPU 利用率。GPU 时间是循环中的主要成本，任何毫秒的沙箱初始化都是加速器的空闲时间。Modal 预构建、积极缓存的容器镜像和亚秒级冷启动使训练循环保持 GPU 密集型而非 CPU 密集型，这是任何严肃 RL 工作负载所需的运行状态。

可靠性同样重要。每次部署都必须通过单元测试、专家编写的评分标准或 LLM-as-judge 运行进行评估，并且相同的评估层在生产中再次运行，对数千个并发轨迹的实时代理行为进行评分。这需要大规模并行的 CPU 计算。Applied Compute 利用 Modal Functions 提供低成本的服务器无状态扇出，无需专用集群。在高并发下，个别失败不可避免；平台恢复的速度是关键属性。Modal 的自动重试、每次调用的隔离和托管调度确保了评估和部署层持续运行。

Patil 相信前沿模型不会消失，但我们会看到越来越多的公司拥有自己的后训练、持续学习循环、评估和专有数据管道，使他们的 AI 具有独特性。Applied Compute 正在建设团队和平台，使这一切变得实用，一次服务一个客户，将研究人员嵌入每个客户，将他们的机构判断编码到奖励函数中，并持续运行循环，直到生成的模型表现得像组织的一员，而不仅仅是另一个工具。Modal 提供了云基础设施，使 Applied Compute 能够快速推进这一愿景：足够快让数千个并行部署保持 GPU 密集型，足够灵活托管任意复杂的生产系统模拟，足够可靠在长时间并发运行中保持评估层活跃，所有这一切都在统一的 RL 循环环境中实现。