AI News HubLIVE
站內改寫3 分鐘閱讀

亞馬遜SageMaker AI中多輪強化學習的最佳實踐

本文分享了在亞馬遜SageMaker AI中進行可靠多輪強化學習訓練的最佳實踐,涵蓋構建可信訓練環境、設定外部評估、設計與最終任務對齊的獎勵函式、管理多輪執行中的變化,以及監控關鍵指標以指導迭代。

來源AWS Machine Learning Blog作者: Sapana Chaudhary

在亞馬遜SageMaker AI中訓練多輪智慧體以解決支援工單或內容稽核任務時,需要處理一系列相互依賴的步驟,而非單一響應。這些智慧體需讀取指令、呼叫工具、分析結果、決定下一步行動,甚至在提交最終答案前從錯誤中恢復。這種靈活性也使得智慧體強化學習(RL)充滿挑戰。更多的行動方式意味著更多在不完成任務的情況下滿足獎勵的途徑,同時智慧體訓練的環境可能會悄無聲息地汙染訓練訊號。

本文總結了實現可靠多輪RL訓練的最佳實踐,涵蓋如何構建可信的訓練環境、設定外部評估、設計與最終任務對齊的獎勵函式、管理多輪執行中的變化,以及監控指示迭代時機的指標。示例基於SOP-Bench資料集,這是亞馬遜科學團隊建立的一個基準測試,用於評估智慧體根據複雜標準操作程式(SOP)在12個業務領域中解決問題的能力。

SageMaker AI多輪強化學習服務提供了針對智慧體任務的訓練迴圈。智慧體可執行於Amazon Bedrock AgentCore、Amazon EKS、Amazon EC2、AWS Fargate或使用者選擇的基礎設施上。透過一個小型介面卡將工具介面暴露給回滾伺服器,SageMaker AI MTRL負責其餘部分:模組化的智慧體-環境介面,實現低程式碼整合的同時保持完全演算法控制;無伺服器執行簡化基礎設施問題,以每令牌定價提供生產規模的智慧體RL,無需配置或管理GPU叢集;非同步回滾和軌跡收集,具有有界離策略陳舊性,生成和梯度更新並行執行,加速訓練;原生演算法庫涵蓋PPO、CISPO和重要性取樣損失,配合多種基於組的優勢估計器;序列擴充套件訓練以減少長多輪軌跡的掛鐘時間;在MLflow中實現軌跡和獎勵可觀測性;評估作業在部署前報告獎勵、pass@k、軌跡指標等。

服務提供訓練迴圈、硬體和編排,但決定智慧體可靠性的關鍵選擇在於使用者:構建智慧體訓練的環境、在獎勵之外衡量成功、設計獎勵本身,以及在曲線停滯時決定如何迭代。

構建廉價、可復現且具代表性的訓練環境 單輪RL需要提示和獎勵函式,多輪RL則增加了智慧體在多個回合中行動的環境:它呼叫的工具及其背後的系統。該環境是訓練設定的一部分,其構建方式既影響模型的學習內容,也影響指標的可靠性。訓練智慧體時,應構建沙盒或模擬環境,使其類似生產環境但隔離於即時流量。工具呼叫和響應保持相同的模式和業務邏輯,但由記錄響應或隔離狀態驅動,而非即時呼叫。

模擬環境是推薦的起點,因為典型執行會產生數千次回滾,每次回滾包含多次工具呼叫。例如,批次大小為128、組大小為8時,每步有1024次回滾。將如此流量指向即時系統可能導致客戶影響。沒有模擬環境,探索可能產生真實副作用,例如智慧體透過試錯學習時會發放退款、刪除記錄或觸發非預期的流程。此外,即時資料會動態變化,導致同一軌跡在不同執行中得分不同。計算獎勵需要知道正確結果,因此無論如何都需要固定的標記任務集。

構建模擬環境的方式取決於工具的功能,三種模式覆蓋大多數用例:只讀工具、有狀態工具和可驗證結果。無論採用哪種模式,需保持兩個固定屬性:可復現性(相同引數呼叫返回相同結果)和代表性(基於真真實模式和資料結構構建環境,使學習到的行為可遷移到生產)。

在訓練前設定外部評估 環境就位並驗證後,在編寫獎勵函式前建立衡量成功的標準。該標準應直接捕捉最終目標。RL會逐字最佳化獎勵訊號,因此如果獎勵是唯一關注的指標,則無法區分任務進展與滿足獎勵標準的進展。需要一個外部評估來指導獎勵、環境種子和超引數的迭代決策。

模式:建立一個固定的評估,獨立於獎勵計算所關心的結果。例如,SOP-Bench的評估是精確匹配最終JSON物件中的每個欄位。在訓練前,對基礎模型和參考模型(如託管在Amazon Bedrock上的前沿模型)執行相同評估,建立基線。

反模式:將訓練獎勵或其衍生指標視為成功標準。多輪智慧體尤其需要注意:為工具呼叫支付獎勵會教會智慧體儘可能多地呼叫工具;懲罰回滾次數則導致智慧體在獲得足夠資訊前過早提交答案。無論哪種情況,訓練獎勵上升但實際成功率下降。

設計良好的多輪RL獎勵函式 獎勵設計是RL中最具挑戰性的開放問題之一。靈活性讓智慧體既能解決真實任務,也能找到不完成任務而滿足獎勵的方法。預設情況下,訓練和評估應使用相同的評分規則,僅在確有具體理由時才偏離。

基準測試通常期望答案以JSON物件形式呈現。訓練和評估通常共享評分規則,區別僅在於觀察內容。有兩種理由偏離預設評分規則:一是演算法原因,二元得分可能坍縮組內方差,導致訊號缺失;二是收斂速度,稠密獎勵為每個部分進展提供梯度,加速學習。例如,SOP-Bench任務中,稠密獎勵對每個欄位獨立評分,返回獎勵標量或標量列表及指標字典。

結論 透過遵循這些最佳實踐,開發者可以更可靠地訓練多輪RL智慧體,確保其在生產環境中有效執行復雜任務。