2026-07-03 01:50 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-03 02:01 UTC+8

亞馬遜SageMaker AI中多輪強化學習的最佳實踐

本文分享了在亞馬遜SageMaker AI中進行可靠多輪強化學習訓練的最佳實踐，涵蓋構建可信訓練環境、設定外部評估、設計與最終任務對齊的獎勵函式、管理多輪執行中的變化，以及監控關鍵指標以指導迭代。

來源AWS Machine Learning Blog作者: Sapana Chaudhary

在亞馬遜SageMaker AI中訓練多輪智慧體以解決支援工單或內容稽核任務時，需要處理一系列相互依賴的步驟，而非單一響應。這些智慧體需讀取指令、呼叫工具、分析結果、決定下一步行動，甚至在提交最終答案前從錯誤中恢復。這種靈活性也使得智慧體強化學習（RL）充滿挑戰。更多的行動方式意味著更多在不完成任務的情況下滿足獎勵的途徑，同時智慧體訓練的環境可能會悄無聲息地汙染訓練訊號。

本文總結了實現可靠多輪RL訓練的最佳實踐，涵蓋如何構建可信的訓練環境、設定外部評估、設計與最終任務對齊的獎勵函式、管理多輪執行中的變化，以及監控指示迭代時機的指標。示例基於SOP-Bench資料集，這是亞馬遜科學團隊建立的一個基準測試，用於評估智慧體根據複雜標準操作程式（SOP）在12個業務領域中解決問題的能力。

SageMaker AI多輪強化學習服務提供了針對智慧體任務的訓練迴圈。智慧體可執行於Amazon Bedrock AgentCore、Amazon EKS、Amazon EC2、AWS Fargate或使用者選擇的基礎設施上。透過一個小型介面卡將工具介面暴露給回滾伺服器，SageMaker AI MTRL負責其餘部分：模組化的智慧體-環境介面，實現低程式碼整合的同時保持完全演算法控制；無伺服器執行簡化基礎設施問題，以每令牌定價提供生產規模的智慧體RL，無需配置或管理GPU叢集；非同步回滾和軌跡收集，具有有界離策略陳舊性，生成和梯度更新並行執行，加速訓練；原生演算法庫涵蓋PPO、CISPO和重要性取樣損失，配合多種基於組的優勢估計器；序列擴充套件訓練以減少長多輪軌跡的掛鐘時間；在MLflow中實現軌跡和獎勵可觀測性；評估作業在部署前報告獎勵、pass@k、軌跡指標等。

服務提供訓練迴圈、硬體和編排，但決定智慧體可靠性的關鍵選擇在於使用者：構建智慧體訓練的環境、在獎勵之外衡量成功、設計獎勵本身，以及在曲線停滯時決定如何迭代。

構建廉價、可復現且具代表性的訓練環境 單輪RL需要提示和獎勵函式，多輪RL則增加了智慧體在多個回合中行動的環境：它呼叫的工具及其背後的系統。該環境是訓練設定的一部分，其構建方式既影響模型的學習內容，也影響指標的可靠性。訓練智慧體時，應構建沙盒或模擬環境，使其類似生產環境但隔離於即時流量。工具呼叫和響應保持相同的模式和業務邏輯，但由記錄響應或隔離狀態驅動，而非即時呼叫。

模擬環境是推薦的起點，因為典型執行會產生數千次回滾，每次回滾包含多次工具呼叫。例如，批次大小為128、組大小為8時，每步有1024次回滾。將如此流量指向即時系統可能導致客戶影響。沒有模擬環境，探索可能產生真實副作用，例如智慧體透過試錯學習時會發放退款、刪除記錄或觸發非預期的流程。此外，即時資料會動態變化，導致同一軌跡在不同執行中得分不同。計算獎勵需要知道正確結果，因此無論如何都需要固定的標記任務集。

構建模擬環境的方式取決於工具的功能，三種模式覆蓋大多數用例：只讀工具、有狀態工具和可驗證結果。無論採用哪種模式，需保持兩個固定屬性：可復現性（相同引數呼叫返回相同結果）和代表性（基於真真實模式和資料結構構建環境，使學習到的行為可遷移到生產）。

在訓練前設定外部評估 環境就位並驗證後，在編寫獎勵函式前建立衡量成功的標準。該標準應直接捕捉最終目標。RL會逐字最佳化獎勵訊號，因此如果獎勵是唯一關注的指標，則無法區分任務進展與滿足獎勵標準的進展。需要一個外部評估來指導獎勵、環境種子和超引數的迭代決策。

模式：建立一個固定的評估，獨立於獎勵計算所關心的結果。例如，SOP-Bench的評估是精確匹配最終JSON物件中的每個欄位。在訓練前，對基礎模型和參考模型（如託管在Amazon Bedrock上的前沿模型）執行相同評估，建立基線。

反模式：將訓練獎勵或其衍生指標視為成功標準。多輪智慧體尤其需要注意：為工具呼叫支付獎勵會教會智慧體儘可能多地呼叫工具；懲罰回滾次數則導致智慧體在獲得足夠資訊前過早提交答案。無論哪種情況，訓練獎勵上升但實際成功率下降。

設計良好的多輪RL獎勵函式 獎勵設計是RL中最具挑戰性的開放問題之一。靈活性讓智慧體既能解決真實任務，也能找到不完成任務而滿足獎勵的方法。預設情況下，訓練和評估應使用相同的評分規則，僅在確有具體理由時才偏離。

基準測試通常期望答案以JSON物件形式呈現。訓練和評估通常共享評分規則，區別僅在於觀察內容。有兩種理由偏離預設評分規則：一是演算法原因，二元得分可能坍縮組內方差，導致訊號缺失；二是收斂速度，稠密獎勵為每個部分進展提供梯度，加速學習。例如，SOP-Bench任務中，稠密獎勵對每個欄位獨立評分，返回獎勵標量或標量列表及指標字典。

結論透過遵循這些最佳實踐，開發者可以更可靠地訓練多輪RL智慧體，確保其在生產環境中有效執行復雜任務。