亚马逊SageMaker AI中多轮强化学习的最佳实践
本文分享了在亚马逊SageMaker AI中进行可靠多轮强化学习训练的最佳实践,涵盖构建可信训练环境、设置外部评估、设计与最终任务对齐的奖励函数、管理多轮运行中的变化,以及监控关键指标以指导迭代。
在亚马逊SageMaker AI中训练多轮智能体以解决支持工单或内容审核任务时,需要处理一系列相互依赖的步骤,而非单一响应。这些智能体需读取指令、调用工具、分析结果、决定下一步行动,甚至在提交最终答案前从错误中恢复。这种灵活性也使得智能体强化学习(RL)充满挑战。更多的行动方式意味着更多在不完成任务的情况下满足奖励的途径,同时智能体训练的环境可能会悄无声息地污染训练信号。
本文总结了实现可靠多轮RL训练的最佳实践,涵盖如何构建可信的训练环境、设置外部评估、设计与最终任务对齐的奖励函数、管理多轮运行中的变化,以及监控指示迭代时机的指标。示例基于SOP-Bench数据集,这是亚马逊科学团队创建的一个基准测试,用于评估智能体根据复杂标准操作程序(SOP)在12个业务领域中解决问题的能力。
SageMaker AI多轮强化学习服务提供了针对智能体任务的训练循环。智能体可运行于Amazon Bedrock AgentCore、Amazon EKS、Amazon EC2、AWS Fargate或用户选择的基础设施上。通过一个小型适配器将工具接口暴露给回滚服务器,SageMaker AI MTRL负责其余部分:模块化的智能体-环境接口,实现低代码集成的同时保持完全算法控制;无服务器执行简化基础设施问题,以每令牌定价提供生产规模的智能体RL,无需配置或管理GPU集群;异步回滚和轨迹收集,具有有界离策略陈旧性,生成和梯度更新并行运行,加速训练;原生算法库涵盖PPO、CISPO和重要性采样损失,配合多种基于组的优势估计器;序列扩展训练以减少长多轮轨迹的挂钟时间;在MLflow中实现轨迹和奖励可观测性;评估作业在部署前报告奖励、pass@k、轨迹指标等。
服务提供训练循环、硬件和编排,但决定智能体可靠性的关键选择在于用户:构建智能体训练的环境、在奖励之外衡量成功、设计奖励本身,以及在曲线停滞时决定如何迭代。
构建廉价、可复现且具代表性的训练环境 单轮RL需要提示和奖励函数,多轮RL则增加了智能体在多个回合中行动的环境:它调用的工具及其背后的系统。该环境是训练设置的一部分,其构建方式既影响模型的学习内容,也影响指标的可靠性。训练智能体时,应构建沙盒或模拟环境,使其类似生产环境但隔离于实时流量。工具调用和响应保持相同的模式和业务逻辑,但由记录响应或隔离状态驱动,而非实时调用。
模拟环境是推荐的起点,因为典型运行会产生数千次回滚,每次回滚包含多次工具调用。例如,批次大小为128、组大小为8时,每步有1024次回滚。将如此流量指向实时系统可能导致客户影响。没有模拟环境,探索可能产生真实副作用,例如智能体通过试错学习时会发放退款、删除记录或触发非预期的流程。此外,实时数据会动态变化,导致同一轨迹在不同运行中得分不同。计算奖励需要知道正确结果,因此无论如何都需要固定的标记任务集。
构建模拟环境的方式取决于工具的功能,三种模式覆盖大多数用例:只读工具、有状态工具和可验证结果。无论采用哪种模式,需保持两个固定属性:可复现性(相同参数调用返回相同结果)和代表性(基于真实模式和数据结构构建环境,使学习到的行为可迁移到生产)。
在训练前设置外部评估 环境就位并验证后,在编写奖励函数前建立衡量成功的标准。该标准应直接捕捉最终目标。RL会逐字优化奖励信号,因此如果奖励是唯一关注的指标,则无法区分任务进展与满足奖励标准的进展。需要一个外部评估来指导奖励、环境种子和超参数的迭代决策。
模式:建立一个固定的评估,独立于奖励计算所关心的结果。例如,SOP-Bench的评估是精确匹配最终JSON对象中的每个字段。在训练前,对基础模型和参考模型(如托管在Amazon Bedrock上的前沿模型)运行相同评估,建立基线。
反模式:将训练奖励或其衍生指标视为成功标准。多轮智能体尤其需要注意:为工具调用支付奖励会教会智能体尽可能多地调用工具;惩罚回滚次数则导致智能体在获得足够信息前过早提交答案。无论哪种情况,训练奖励上升但实际成功率下降。
设计良好的多轮RL奖励函数 奖励设计是RL中最具挑战性的开放问题之一。灵活性让智能体既能解决真实任务,也能找到不完成任务而满足奖励的方法。默认情况下,训练和评估应使用相同的评分规则,仅在确有具体理由时才偏离。
基准测试通常期望答案以JSON对象形式呈现。训练和评估通常共享评分规则,区别仅在于观察内容。有两种理由偏离默认评分规则:一是算法原因,二元得分可能坍缩组内方差,导致信号缺失;二是收敛速度,稠密奖励为每个部分进展提供梯度,加速学习。例如,SOP-Bench任务中,稠密奖励对每个字段独立评分,返回奖励标量或标量列表及指标字典。
结论 通过遵循这些最佳实践,开发者可以更可靠地训练多轮RL智能体,确保其在生产环境中有效执行复杂任务。