亞馬遜SageMaker AI中多輪強化學習的最佳實踐
本文分享了在亞馬遜SageMaker AI中進行可靠多輪強化學習訓練的最佳實踐,涵蓋構建可信訓練環境、設置外部評估、設計與最終任務對齊的獎勵函數、管理多輪運行中的變化,以及監控關鍵指標以指導迭代。
在亞馬遜SageMaker AI中訓練多輪智能體以解決支持工單或內容審核任務時,需要處理一系列相互依賴的步驟,而非單一響應。這些智能體需讀取指令、調用工具、分析結果、決定下一步行動,甚至在提交最終答案前從錯誤中恢復。這種靈活性也使得智能體強化學習(RL)充滿挑戰。更多的行動方式意味着更多在不完成任務的情況下滿足獎勵的途徑,同時智能體訓練的環境可能會悄無聲息地污染訓練信號。
本文總結了實現可靠多輪RL訓練的最佳實踐,涵蓋如何構建可信的訓練環境、設置外部評估、設計與最終任務對齊的獎勵函數、管理多輪運行中的變化,以及監控指示迭代時機的指標。示例基於SOP-Bench數據集,這是亞馬遜科學團隊創建的一個基準測試,用於評估智能體根據複雜標準操作程序(SOP)在12個業務領域中解決問題的能力。
SageMaker AI多輪強化學習服務提供了針對智能體任務的訓練循環。智能體可運行於Amazon Bedrock AgentCore、Amazon EKS、Amazon EC2、AWS Fargate或用户選擇的基礎設施上。通過一個小型適配器將工具接口暴露給回滾服務器,SageMaker AI MTRL負責其餘部分:模塊化的智能體-環境接口,實現低代碼集成的同時保持完全算法控制;無服務器執行簡化基礎設施問題,以每令牌定價提供生產規模的智能體RL,無需配置或管理GPU集羣;異步回滾和軌跡收集,具有有界離策略陳舊性,生成和梯度更新並行運行,加速訓練;原生算法庫涵蓋PPO、CISPO和重要性採樣損失,配合多種基於組的優勢估計器;序列擴展訓練以減少長多輪軌跡的掛鐘時間;在MLflow中實現軌跡和獎勵可觀測性;評估作業在部署前報告獎勵、pass@k、軌跡指標等。
服務提供訓練循環、硬件和編排,但決定智能體可靠性的關鍵選擇在於用户:構建智能體訓練的環境、在獎勵之外衡量成功、設計獎勵本身,以及在曲線停滯時決定如何迭代。
構建廉價、可復現且具代表性的訓練環境 單輪RL需要提示和獎勵函數,多輪RL則增加了智能體在多個回合中行動的環境:它調用的工具及其背後的系統。該環境是訓練設置的一部分,其構建方式既影響模型的學習內容,也影響指標的可靠性。訓練智能體時,應構建沙盒或模擬環境,使其類似生產環境但隔離於實時流量。工具調用和響應保持相同的模式和業務邏輯,但由記錄響應或隔離狀態驅動,而非實時調用。
模擬環境是推薦的起點,因為典型運行會產生數千次回滾,每次回滾包含多次工具調用。例如,批次大小為128、組大小為8時,每步有1024次回滾。將如此流量指向實時系統可能導致客户影響。沒有模擬環境,探索可能產生真實副作用,例如智能體通過試錯學習時會發放退款、刪除記錄或觸發非預期的流程。此外,實時數據會動態變化,導致同一軌跡在不同運行中得分不同。計算獎勵需要知道正確結果,因此無論如何都需要固定的標記任務集。
構建模擬環境的方式取決於工具的功能,三種模式覆蓋大多數用例:只讀工具、有狀態工具和可驗證結果。無論採用哪種模式,需保持兩個固定屬性:可復現性(相同參數調用返回相同結果)和代表性(基於真實模式和數據結構構建環境,使學習到的行為可遷移到生產)。
在訓練前設置外部評估 環境就位並驗證後,在編寫獎勵函數前建立衡量成功的標準。該標準應直接捕捉最終目標。RL會逐字優化獎勵信號,因此如果獎勵是唯一關注的指標,則無法區分任務進展與滿足獎勵標準的進展。需要一個外部評估來指導獎勵、環境種子和超參數的迭代決策。
模式:建立一個固定的評估,獨立於獎勵計算所關心的結果。例如,SOP-Bench的評估是精確匹配最終JSON對象中的每個字段。在訓練前,對基礎模型和參考模型(如託管在Amazon Bedrock上的前沿模型)運行相同評估,建立基線。
反模式:將訓練獎勵或其衍生指標視為成功標準。多輪智能體尤其需要注意:為工具調用支付獎勵會教會智能體儘可能多地調用工具;懲罰回滾次數則導致智能體在獲得足夠信息前過早提交答案。無論哪種情況,訓練獎勵上升但實際成功率下降。
設計良好的多輪RL獎勵函數 獎勵設計是RL中最具挑戰性的開放問題之一。靈活性讓智能體既能解決真實任務,也能找到不完成任務而滿足獎勵的方法。默認情況下,訓練和評估應使用相同的評分規則,僅在確有具體理由時才偏離。
基準測試通常期望答案以JSON對象形式呈現。訓練和評估通常共享評分規則,區別僅在於觀察內容。有兩種理由偏離默認評分規則:一是算法原因,二元得分可能坍縮組內方差,導致信號缺失;二是收斂速度,稠密獎勵為每個部分進展提供梯度,加速學習。例如,SOP-Bench任務中,稠密獎勵對每個字段獨立評分,返回獎勵標量或標量列表及指標字典。
結論 通過遵循這些最佳實踐,開發者可以更可靠地訓練多輪RL智能體,確保其在生產環境中有效執行復雜任務。