在Applied Compute扩展强化学习
Applied Compute 使用强化学习为企业(如 DoorDash、Cognition、Mercor)训练定制 AI 代理,并在 Modal 上运行。其核心理念是“特定智能”:通过专有数据训练,每次使用都能改进。本文介绍了他们的 RL 训练循环、基础设施选择以及 Modal 如何提供灵活性、性能和可靠性。
Applied Compute 是一家专注于为企业训练定制 AI 代理的公司,其客户包括 DoorDash、Cognition 和 Mercor。创始团队来自 OpenAI 的 Codex 和 o1 项目,他们创立公司的核心理念是:随着前沿模型商品化,竞争层将转移到后训练阶段。拥有自己的奖励函数、评估和持续学习循环的企业将领先于其他企业。他们将这种方法称为“特定智能”,而 Modal 帮助实现这一使命。
Applied Compute 构建的代理具有“特定智能”:AI 为一家公司定制,基于其专有数据训练,并且每次使用时都会改进。其核心训练机制是强化学习(RL)。RL 让模型在可重放的环境中多次尝试任务,根据奖励函数对每次尝试进行评分,并更新权重以偏向奖励函数所 favor 的行为。例如,为 DoorDash 训练了一个最先进的商家入驻模型,能够将拍摄的菜单照片转化为 DoorDash 生产使用的结构化店面表示;为 Cognition 训练了一个自定义的 bug 捕获代理,能够在开发者保存提交后几秒内发现问题。
选择合适的底层基础设施至关重要。典型的 RL 训练循环包括三个需要持续协作的组件:部署(在可重放环境中尝试任务)、评估(根据奖励函数评分)和推理(在生产中提供服务并捕获新轨迹)。每个组件都有不同的基础设施需求:部署是突发性且 CPU 密集的,评分需要大规模并行,推理需要优化 GPU 访问。Modal 为每个阶段提供了合适的原语,使它们能够共享状态并保持循环紧密。
在确定平台之前,Applied Compute 评估了几乎所有市场上的沙箱和执行提供商。Modal 是唯一一个在每个阶段提供适当原语且保持低成本的选项。Patil 表示:“Modal 非常灵活,结构适合构建复杂环境,并且非常注重性能和可靠性。”
RL 训练需要模型并行尝试任务数千次,每次尝试都在独立的临时环境中。这些环境通常模拟整个生产系统(如 Salesforce、Slack、内部 API),具有足够高的保真度,使代理无法区分它们与真实服务。训练-测试不匹配是部署 RL 系统中最常见的失败模式之一。Modal 沙箱提供快速启动、完全文件系统和网络隔离以及快照语义的临时容器,使 Applied Compute 能够构建任意复杂的生产系统模拟,同时保持训练循环依赖的确定性。
性能延迟是另一个关键因素。部署需要同时运行推理和沙箱。当数千个沙箱在训练运行期间并行启动时(通常持续一两个小时),P50 和 P90 启动延迟直接转化为推理侧的 GPU 利用率。GPU 时间是循环中的主要成本,任何毫秒的沙箱初始化都是加速器的空闲时间。Modal 预构建、积极缓存的容器镜像和亚秒级冷启动使训练循环保持 GPU 密集型而非 CPU 密集型,这是任何严肃 RL 工作负载所需的运行状态。
可靠性同样重要。每次部署都必须通过单元测试、专家编写的评分标准或 LLM-as-judge 运行进行评估,并且相同的评估层在生产中再次运行,对数千个并发轨迹的实时代理行为进行评分。这需要大规模并行的 CPU 计算。Applied Compute 利用 Modal Functions 提供低成本的服务器无状态扇出,无需专用集群。在高并发下,个别失败不可避免;平台恢复的速度是关键属性。Modal 的自动重试、每次调用的隔离和托管调度确保了评估和部署层持续运行。
Patil 相信前沿模型不会消失,但我们会看到越来越多的公司拥有自己的后训练、持续学习循环、评估和专有数据管道,使他们的 AI 具有独特性。Applied Compute 正在建设团队和平台,使这一切变得实用,一次服务一个客户,将研究人员嵌入每个客户,将他们的机构判断编码到奖励函数中,并持续运行循环,直到生成的模型表现得像组织的一员,而不仅仅是另一个工具。Modal 提供了云基础设施,使 Applied Compute 能够快速推进这一愿景:足够快让数千个并行部署保持 GPU 密集型,足够灵活托管任意复杂的生产系统模拟,足够可靠在长时间并发运行中保持评估层活跃,所有这一切都在统一的 RL 循环环境中实现。