AI News HubLIVE
站內改寫2 分鐘閱讀

在Applied Compute擴充套件強化學習

Applied Compute 使用強化學習為企業(如 DoorDash、Cognition、Mercor)訓練定製 AI 代理,並在 Modal 上執行。其核心理念是“特定智慧”:透過專有資料訓練,每次使用都能改進。本文介紹了他們的 RL 訓練迴圈、基礎設施選擇以及 Modal 如何提供靈活性、效能和可靠性。

Applied Compute 是一家專注於為企業訓練定製 AI 代理的公司,其客戶包括 DoorDash、Cognition 和 Mercor。創始團隊來自 OpenAI 的 Codex 和 o1 專案,他們創立公司的核心理念是:隨著前沿模型商品化,競爭層將轉移到後訓練階段。擁有自己的獎勵函式、評估和持續學習迴圈的企業將領先於其他企業。他們將這種方法稱為“特定智慧”,而 Modal 幫助實現這一使命。

Applied Compute 構建的代理具有“特定智慧”:AI 為一家公司定製,基於其專有資料訓練,並且每次使用時都會改進。其核心訓練機制是強化學習(RL)。RL 讓模型在可重放的環境中多次嘗試任務,根據獎勵函式對每次嘗試進行評分,並更新權重以偏向獎勵函式所 favor 的行為。例如,為 DoorDash 訓練了一個最先進的商家入駐模型,能夠將拍攝的選單照片轉化為 DoorDash 生產使用的結構化店面表示;為 Cognition 訓練了一個自定義的 bug 捕獲代理,能夠在開發者儲存提交後幾秒內發現問題。

選擇合適的底層基礎設施至關重要。典型的 RL 訓練迴圈包括三個需要持續協作的元件:部署(在可重放環境中嘗試任務)、評估(根據獎勵函式評分)和推理(在生產中提供服務並捕獲新軌跡)。每個元件都有不同的基礎設施需求:部署是突發性且 CPU 密集的,評分需要大規模並行,推理需要最佳化 GPU 訪問。Modal 為每個階段提供了合適的原語,使它們能夠共享狀態並保持迴圈緊密。

在確定平臺之前,Applied Compute 評估了幾乎所有市場上的沙箱和執行提供商。Modal 是唯一一個在每個階段提供適當原語且保持低成本的選項。Patil 表示:“Modal 非常靈活,結構適合構建複雜環境,並且非常注重效能和可靠性。”

RL 訓練需要模型並行嘗試任務數千次,每次嘗試都在獨立的臨時環境中。這些環境通常模擬整個生產系統(如 Salesforce、Slack、內部 API),具有足夠高的保真度,使代理無法區分它們與真實服務。訓練-測試不匹配是部署 RL 系統中最常見的失敗模式之一。Modal 沙箱提供快速啟動、完全檔案系統和網路隔離以及快照語義的臨時容器,使 Applied Compute 能夠構建任意複雜的生產系統模擬,同時保持訓練迴圈依賴的確定性。

效能延遲是另一個關鍵因素。部署需要同時執行推理和沙箱。當數千個沙箱在訓練執行期間並行啟動時(通常持續一兩個小時),P50 和 P90 啟動延遲直接轉化為推理側的 GPU 利用率。GPU 時間是迴圈中的主要成本,任何毫秒的沙箱初始化都是加速器的空閒時間。Modal 預構建、積極快取的容器映象和亞秒級冷啟動使訓練迴圈保持 GPU 密集型而非 CPU 密集型,這是任何嚴肅 RL 工作負載所需的執行狀態。

可靠性同樣重要。每次部署都必須透過單元測試、專家編寫的評分標準或 LLM-as-judge 執行進行評估,並且相同的評估層在生產中再次執行,對數千個併發軌跡的即時代理行為進行評分。這需要大規模並行的 CPU 計算。Applied Compute 利用 Modal Functions 提供低成本的伺服器無狀態扇出,無需專用叢集。在高併發下,個別失敗不可避免;平臺恢復的速度是關鍵屬性。Modal 的自動重試、每次呼叫的隔離和託管排程確保了評估和部署層持續執行。

Patil 相信前沿模型不會消失,但我們會看到越來越多的公司擁有自己的後訓練、持續學習迴圈、評估和專有資料管道,使他們的 AI 具有獨特性。Applied Compute 正在建設團隊和平臺,使這一切變得實用,一次服務一個客戶,將研究人員嵌入每個客戶,將他們的機構判斷編碼到獎勵函式中,並持續執行迴圈,直到生成的模型表現得像組織的一員,而不僅僅是另一個工具。Modal 提供了雲基礎設施,使 Applied Compute 能夠快速推進這一願景:足夠快讓數千個並行部署保持 GPU 密集型,足夠靈活託管任意複雜的生產系統模擬,足夠可靠在長時間併發執行中保持評估層活躍,所有這一切都在統一的 RL 迴圈環境中實現。