2026-06-23 15:20 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-23 15:36 UTC+8

Prime Intellect 發佈 prime-rl 0.6.0，用於訓練萬億參數 MoE 模型的智能體強化學習任務

Prime Intellect 發佈了 prime-rl 0.6.0，這是一個用於萬億參數混合專家（MoE）模型異步強化學習的開源框架。該框架在 SWE 任務上訓練了 GLM-5，序列長度高達 131k，步時低於 5 分鐘，使用 256 次 rollout 和 28 個 H200 節點。本文詳細介紹了其推理和訓練優化，包括 FP8 推理、寬專家並行、預填充/解碼分離、路由器重放以及 3D 並行（FSDP、EP、CP）。

來源MarkTechPost作者: Asif Razzaq

Prime Intellect 發佈了 prime-rl 版本 0.6.0，這是一個用於萬億參數混合專家（MoE）模型強化學習的開源框架。該框架專注於處理重智能體工作負載，例如長週期軟件工程任務。研究團隊在 SWE 任務上訓練了 GLM-5 模型，序列長度高達 131k，步時保持在 5 分鐘以內，批量大小為 256 次 rollout，僅使用了 28 個 H200 節點。

關鍵特性 prime-rl 0.6.0 的核心能力在於異步強化學習，它將訓練器和推理系統分離，使兩者可以獨立運行和擴展。在智能體任務中，某些編碼 rollout 可能持續數小時，異步 RL 避免了在每次策略更新前等待所有 rollout 完成，從而避免 GPU 空閒。唯一的同步點是策略更新：一旦優化器步驟完成，prime-rl 立即推送新權重。已分派的 rollout 保留其活動前綴緩存，因此單個 rollout 可能混合來自多個策略版本的令牌。

推理優化 推理通常是 RL 系統的吞吐瓶頸。prime-rl 通過多種優化提升吞吐量，同時保持延遲可控。

FP8 推理：使用 DeepEP 和 DeepGEMM 內核降低預填充和解碼的計算精度。
寬專家並行（Wide EP）：將專家分佈在 32 個或更多 GPU 上，每個 GPU 持有獨立的專家並作為端點，通過調度和組合操作進行同步。
預填充/解碼分離（P/D 分離）：當預填充與解碼令牌比例達到 4:1 時，分離工作負載避免端到端延遲膨脹。
KV 緩存管理：支持分層的 CPU 和磁盤卸載，使用 vLLM 原生卸載或 Mooncake Store 集中池化。
請求路由：默認使用 vllm-router 分支，也可插入 NVIDIA Dynamo 路由器，根據 KV 緩存重用率、隊列深度和實時負載評分。
路由器重放（R3）：捕捉推理路由決策並直接重放於訓練器，將 KL 偏差降低約一個數量級。

訓練優化 訓練器基於 torchtitan，採用 3D 並行：FSDP、上下文並行（CP）和專家並行（EP）。對於 GLM-5 案例，所有三種策略均被使用。

FSDP2：按層按需收集權重，分攤內存。
專家並行：通過 all2all 調度和組合（torch-native 或 DeepEP）縮小活動層內存。
上下文並行：處理長上下文激活內存，默認使用 Ulysses 或 Ring Attention。對於 GLM-5 使用的 DSA，prime-rl 提供了自定義上下文並行實現。
FP8 訓練：使用 DeepGEMM 塊縮放 FP8，匹配訓練器和推理精度，減少 KL 不匹配並穩定訓練。

應用場景

長週期 SWE 智能體：訓練模型處理真實倉庫問題，rollout 可包含數百輪和工具調用。P/D 分離保持解碼延遲可預測。
在更少節點上進行萬億參數級後訓練：GLM-5 僅用 28 個 H200 節點運行，寬 EP 和 KV 卸載提高了併發和吞吐。
大規模穩定智能體 RL：路由器重放和 FP8 訓練共同降低訓練器-推理器的 KL 不匹配，實現更穩定的訓練。

更多技術細節請查閲原文。