2026-07-03 01:50 UTC+8站内改写3 分钟阅读更新: 2026-07-03 02:01 UTC+8

亚马逊SageMaker AI中多轮强化学习的最佳实践

本文分享了在亚马逊SageMaker AI中进行可靠多轮强化学习训练的最佳实践，涵盖构建可信训练环境、设置外部评估、设计与最终任务对齐的奖励函数、管理多轮运行中的变化，以及监控关键指标以指导迭代。

来源AWS Machine Learning Blog作者: Sapana Chaudhary

在亚马逊SageMaker AI中训练多轮智能体以解决支持工单或内容审核任务时，需要处理一系列相互依赖的步骤，而非单一响应。这些智能体需读取指令、调用工具、分析结果、决定下一步行动，甚至在提交最终答案前从错误中恢复。这种灵活性也使得智能体强化学习（RL）充满挑战。更多的行动方式意味着更多在不完成任务的情况下满足奖励的途径，同时智能体训练的环境可能会悄无声息地污染训练信号。

本文总结了实现可靠多轮RL训练的最佳实践，涵盖如何构建可信的训练环境、设置外部评估、设计与最终任务对齐的奖励函数、管理多轮运行中的变化，以及监控指示迭代时机的指标。示例基于SOP-Bench数据集，这是亚马逊科学团队创建的一个基准测试，用于评估智能体根据复杂标准操作程序（SOP）在12个业务领域中解决问题的能力。

SageMaker AI多轮强化学习服务提供了针对智能体任务的训练循环。智能体可运行于Amazon Bedrock AgentCore、Amazon EKS、Amazon EC2、AWS Fargate或用户选择的基础设施上。通过一个小型适配器将工具接口暴露给回滚服务器，SageMaker AI MTRL负责其余部分：模块化的智能体-环境接口，实现低代码集成的同时保持完全算法控制；无服务器执行简化基础设施问题，以每令牌定价提供生产规模的智能体RL，无需配置或管理GPU集群；异步回滚和轨迹收集，具有有界离策略陈旧性，生成和梯度更新并行运行，加速训练；原生算法库涵盖PPO、CISPO和重要性采样损失，配合多种基于组的优势估计器；序列扩展训练以减少长多轮轨迹的挂钟时间；在MLflow中实现轨迹和奖励可观测性；评估作业在部署前报告奖励、pass@k、轨迹指标等。

服务提供训练循环、硬件和编排，但决定智能体可靠性的关键选择在于用户：构建智能体训练的环境、在奖励之外衡量成功、设计奖励本身，以及在曲线停滞时决定如何迭代。

构建廉价、可复现且具代表性的训练环境 单轮RL需要提示和奖励函数，多轮RL则增加了智能体在多个回合中行动的环境：它调用的工具及其背后的系统。该环境是训练设置的一部分，其构建方式既影响模型的学习内容，也影响指标的可靠性。训练智能体时，应构建沙盒或模拟环境，使其类似生产环境但隔离于实时流量。工具调用和响应保持相同的模式和业务逻辑，但由记录响应或隔离状态驱动，而非实时调用。

模拟环境是推荐的起点，因为典型运行会产生数千次回滚，每次回滚包含多次工具调用。例如，批次大小为128、组大小为8时，每步有1024次回滚。将如此流量指向实时系统可能导致客户影响。没有模拟环境，探索可能产生真实副作用，例如智能体通过试错学习时会发放退款、删除记录或触发非预期的流程。此外，实时数据会动态变化，导致同一轨迹在不同运行中得分不同。计算奖励需要知道正确结果，因此无论如何都需要固定的标记任务集。

构建模拟环境的方式取决于工具的功能，三种模式覆盖大多数用例：只读工具、有状态工具和可验证结果。无论采用哪种模式，需保持两个固定属性：可复现性（相同参数调用返回相同结果）和代表性（基于真实模式和数据结构构建环境，使学习到的行为可迁移到生产）。

在训练前设置外部评估 环境就位并验证后，在编写奖励函数前建立衡量成功的标准。该标准应直接捕捉最终目标。RL会逐字优化奖励信号，因此如果奖励是唯一关注的指标，则无法区分任务进展与满足奖励标准的进展。需要一个外部评估来指导奖励、环境种子和超参数的迭代决策。

模式：建立一个固定的评估，独立于奖励计算所关心的结果。例如，SOP-Bench的评估是精确匹配最终JSON对象中的每个字段。在训练前，对基础模型和参考模型（如托管在Amazon Bedrock上的前沿模型）运行相同评估，建立基线。

反模式：将训练奖励或其衍生指标视为成功标准。多轮智能体尤其需要注意：为工具调用支付奖励会教会智能体尽可能多地调用工具；惩罚回滚次数则导致智能体在获得足够信息前过早提交答案。无论哪种情况，训练奖励上升但实际成功率下降。

设计良好的多轮RL奖励函数 奖励设计是RL中最具挑战性的开放问题之一。灵活性让智能体既能解决真实任务，也能找到不完成任务而满足奖励的方法。默认情况下，训练和评估应使用相同的评分规则，仅在确有具体理由时才偏离。

基准测试通常期望答案以JSON对象形式呈现。训练和评估通常共享评分规则，区别仅在于观察内容。有两种理由偏离默认评分规则：一是算法原因，二元得分可能坍缩组内方差，导致信号缺失；二是收敛速度，稠密奖励为每个部分进展提供梯度，加速学习。例如，SOP-Bench任务中，稠密奖励对每个字段独立评分，返回奖励标量或标量列表及指标字典。

结论通过遵循这些最佳实践，开发者可以更可靠地训练多轮RL智能体，确保其在生产环境中有效执行复杂任务。