2026-07-03 01:50 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-03 02:01 UTC+8

亞馬遜SageMaker AI中多輪強化學習的最佳實踐

本文分享了在亞馬遜SageMaker AI中進行可靠多輪強化學習訓練的最佳實踐，涵蓋構建可信訓練環境、設置外部評估、設計與最終任務對齊的獎勵函數、管理多輪運行中的變化，以及監控關鍵指標以指導迭代。

來源AWS Machine Learning Blog作者: Sapana Chaudhary

在亞馬遜SageMaker AI中訓練多輪智能體以解決支持工單或內容審核任務時，需要處理一系列相互依賴的步驟，而非單一響應。這些智能體需讀取指令、調用工具、分析結果、決定下一步行動，甚至在提交最終答案前從錯誤中恢復。這種靈活性也使得智能體強化學習（RL）充滿挑戰。更多的行動方式意味着更多在不完成任務的情況下滿足獎勵的途徑，同時智能體訓練的環境可能會悄無聲息地污染訓練信號。

本文總結了實現可靠多輪RL訓練的最佳實踐，涵蓋如何構建可信的訓練環境、設置外部評估、設計與最終任務對齊的獎勵函數、管理多輪運行中的變化，以及監控指示迭代時機的指標。示例基於SOP-Bench數據集，這是亞馬遜科學團隊創建的一個基準測試，用於評估智能體根據複雜標準操作程序（SOP）在12個業務領域中解決問題的能力。

SageMaker AI多輪強化學習服務提供了針對智能體任務的訓練循環。智能體可運行於Amazon Bedrock AgentCore、Amazon EKS、Amazon EC2、AWS Fargate或用户選擇的基礎設施上。通過一個小型適配器將工具接口暴露給回滾服務器，SageMaker AI MTRL負責其餘部分：模塊化的智能體-環境接口，實現低代碼集成的同時保持完全算法控制；無服務器執行簡化基礎設施問題，以每令牌定價提供生產規模的智能體RL，無需配置或管理GPU集羣；異步回滾和軌跡收集，具有有界離策略陳舊性，生成和梯度更新並行運行，加速訓練；原生算法庫涵蓋PPO、CISPO和重要性採樣損失，配合多種基於組的優勢估計器；序列擴展訓練以減少長多輪軌跡的掛鐘時間；在MLflow中實現軌跡和獎勵可觀測性；評估作業在部署前報告獎勵、pass@k、軌跡指標等。

服務提供訓練循環、硬件和編排，但決定智能體可靠性的關鍵選擇在於用户：構建智能體訓練的環境、在獎勵之外衡量成功、設計獎勵本身，以及在曲線停滯時決定如何迭代。

構建廉價、可復現且具代表性的訓練環境 單輪RL需要提示和獎勵函數，多輪RL則增加了智能體在多個回合中行動的環境：它調用的工具及其背後的系統。該環境是訓練設置的一部分，其構建方式既影響模型的學習內容，也影響指標的可靠性。訓練智能體時，應構建沙盒或模擬環境，使其類似生產環境但隔離於實時流量。工具調用和響應保持相同的模式和業務邏輯，但由記錄響應或隔離狀態驅動，而非實時調用。

模擬環境是推薦的起點，因為典型運行會產生數千次回滾，每次回滾包含多次工具調用。例如，批次大小為128、組大小為8時，每步有1024次回滾。將如此流量指向實時系統可能導致客户影響。沒有模擬環境，探索可能產生真實副作用，例如智能體通過試錯學習時會發放退款、刪除記錄或觸發非預期的流程。此外，實時數據會動態變化，導致同一軌跡在不同運行中得分不同。計算獎勵需要知道正確結果，因此無論如何都需要固定的標記任務集。

構建模擬環境的方式取決於工具的功能，三種模式覆蓋大多數用例：只讀工具、有狀態工具和可驗證結果。無論採用哪種模式，需保持兩個固定屬性：可復現性（相同參數調用返回相同結果）和代表性（基於真實模式和數據結構構建環境，使學習到的行為可遷移到生產）。

在訓練前設置外部評估 環境就位並驗證後，在編寫獎勵函數前建立衡量成功的標準。該標準應直接捕捉最終目標。RL會逐字優化獎勵信號，因此如果獎勵是唯一關注的指標，則無法區分任務進展與滿足獎勵標準的進展。需要一個外部評估來指導獎勵、環境種子和超參數的迭代決策。

模式：建立一個固定的評估，獨立於獎勵計算所關心的結果。例如，SOP-Bench的評估是精確匹配最終JSON對象中的每個字段。在訓練前，對基礎模型和參考模型（如託管在Amazon Bedrock上的前沿模型）運行相同評估，建立基線。

反模式：將訓練獎勵或其衍生指標視為成功標準。多輪智能體尤其需要注意：為工具調用支付獎勵會教會智能體儘可能多地調用工具；懲罰回滾次數則導致智能體在獲得足夠信息前過早提交答案。無論哪種情況，訓練獎勵上升但實際成功率下降。

設計良好的多輪RL獎勵函數 獎勵設計是RL中最具挑戰性的開放問題之一。靈活性讓智能體既能解決真實任務，也能找到不完成任務而滿足獎勵的方法。默認情況下，訓練和評估應使用相同的評分規則，僅在確有具體理由時才偏離。

基準測試通常期望答案以JSON對象形式呈現。訓練和評估通常共享評分規則，區別僅在於觀察內容。有兩種理由偏離默認評分規則：一是算法原因，二元得分可能坍縮組內方差，導致信號缺失；二是收斂速度，稠密獎勵為每個部分進展提供梯度，加速學習。例如，SOP-Bench任務中，稠密獎勵對每個字段獨立評分，返回獎勵標量或標量列表及指標字典。

結論通過遵循這些最佳實踐，開發者可以更可靠地訓練多輪RL智能體，確保其在生產環境中有效執行復雜任務。