2026-05-20 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

在Applied Compute擴充套件強化學習

Applied Compute 使用強化學習為企業（如 DoorDash、Cognition、Mercor）訓練定製 AI 代理，並在 Modal 上執行。其核心理念是“特定智慧”：透過專有資料訓練，每次使用都能改進。本文介紹了他們的 RL 訓練迴圈、基礎設施選擇以及 Modal 如何提供靈活性、效能和可靠性。

來源Modal Blog

Applied Compute 是一家專注於為企業訓練定製 AI 代理的公司，其客戶包括 DoorDash、Cognition 和 Mercor。創始團隊來自 OpenAI 的 Codex 和 o1 專案，他們創立公司的核心理念是：隨著前沿模型商品化，競爭層將轉移到後訓練階段。擁有自己的獎勵函式、評估和持續學習迴圈的企業將領先於其他企業。他們將這種方法稱為“特定智慧”，而 Modal 幫助實現這一使命。

Applied Compute 構建的代理具有“特定智慧”：AI 為一家公司定製，基於其專有資料訓練，並且每次使用時都會改進。其核心訓練機制是強化學習（RL）。RL 讓模型在可重放的環境中多次嘗試任務，根據獎勵函式對每次嘗試進行評分，並更新權重以偏向獎勵函式所 favor 的行為。例如，為 DoorDash 訓練了一個最先進的商家入駐模型，能夠將拍攝的選單照片轉化為 DoorDash 生產使用的結構化店面表示；為 Cognition 訓練了一個自定義的 bug 捕獲代理，能夠在開發者儲存提交後幾秒內發現問題。

選擇合適的底層基礎設施至關重要。典型的 RL 訓練迴圈包括三個需要持續協作的元件：部署（在可重放環境中嘗試任務）、評估（根據獎勵函式評分）和推理（在生產中提供服務並捕獲新軌跡）。每個元件都有不同的基礎設施需求：部署是突發性且 CPU 密集的，評分需要大規模並行，推理需要最佳化 GPU 訪問。Modal 為每個階段提供了合適的原語，使它們能夠共享狀態並保持迴圈緊密。

在確定平臺之前，Applied Compute 評估了幾乎所有市場上的沙箱和執行提供商。Modal 是唯一一個在每個階段提供適當原語且保持低成本的選項。Patil 表示：“Modal 非常靈活，結構適合構建複雜環境，並且非常注重效能和可靠性。”

RL 訓練需要模型並行嘗試任務數千次，每次嘗試都在獨立的臨時環境中。這些環境通常模擬整個生產系統（如 Salesforce、Slack、內部 API），具有足夠高的保真度，使代理無法區分它們與真實服務。訓練-測試不匹配是部署 RL 系統中最常見的失敗模式之一。Modal 沙箱提供快速啟動、完全檔案系統和網路隔離以及快照語義的臨時容器，使 Applied Compute 能夠構建任意複雜的生產系統模擬，同時保持訓練迴圈依賴的確定性。

效能延遲是另一個關鍵因素。部署需要同時執行推理和沙箱。當數千個沙箱在訓練執行期間並行啟動時（通常持續一兩個小時），P50 和 P90 啟動延遲直接轉化為推理側的 GPU 利用率。GPU 時間是迴圈中的主要成本，任何毫秒的沙箱初始化都是加速器的空閒時間。Modal 預構建、積極快取的容器映象和亞秒級冷啟動使訓練迴圈保持 GPU 密集型而非 CPU 密集型，這是任何嚴肅 RL 工作負載所需的執行狀態。

可靠性同樣重要。每次部署都必須透過單元測試、專家編寫的評分標準或 LLM-as-judge 執行進行評估，並且相同的評估層在生產中再次執行，對數千個併發軌跡的即時代理行為進行評分。這需要大規模並行的 CPU 計算。Applied Compute 利用 Modal Functions 提供低成本的伺服器無狀態扇出，無需專用叢集。在高併發下，個別失敗不可避免；平臺恢復的速度是關鍵屬性。Modal 的自動重試、每次呼叫的隔離和託管排程確保了評估和部署層持續執行。

Patil 相信前沿模型不會消失，但我們會看到越來越多的公司擁有自己的後訓練、持續學習迴圈、評估和專有資料管道，使他們的 AI 具有獨特性。Applied Compute 正在建設團隊和平臺，使這一切變得實用，一次服務一個客戶，將研究人員嵌入每個客戶，將他們的機構判斷編碼到獎勵函式中，並持續執行迴圈，直到生成的模型表現得像組織的一員，而不僅僅是另一個工具。Modal 提供了雲基礎設施，使 Applied Compute 能夠快速推進這一願景：足夠快讓數千個並行部署保持 GPU 密集型，足夠靈活託管任意複雜的生產系統模擬，足夠可靠在長時間併發執行中保持評估層活躍，所有這一切都在統一的 RL 迴圈環境中實現。