AI News HubLIVE
站内改写4 分钟阅读

Amazon Nova Forge 超参数优化的艺术与科学

本文深入探讨了在使用 Amazon Nova Forge 进行领域特定任务微调时,如何平衡模型领域性能与通用能力。介绍了数据混合、学习率、检查点选择等关键超参数的优化策略,以及如何避免灾难性遗忘和昂贵的失败训练。

来源AWS Machine Learning Blog作者: Nishant Dhiman

大型语言模型(LLM)在通用任务上表现强劲,但在处理需要理解专有数据、内部流程或领域特定术语的专业工作时往往力不从心。Amazon Nova Forge 通过使您能够构建自己的前沿模型来解决这一问题。您可以从早期模型检查点开始开发,将专有数据与 Amazon Nova 精选的训练数据混合,并在 AWS 上安全地托管自定义模型。其中一项关键功能是数据混合,它将您的训练数据与精选数据集相结合,帮助模型吸收您的领域知识,同时保持广泛的推理、指令遵循和语言能力,从而防止通常损害领域定制的灾难性遗忘。

成功的定制需要精心的超参数调优。学习率、数据混合比例、检查点选择和训练技术都会以可能暗中破坏训练运行的方式相互作用。如果其中任何一项设置不当,就会顾此失彼。本文涵盖了在 Amazon Nova Forge 上进行超参数调优的艺术(战略权衡)和科学(指标驱动的决策),以帮助您避免昂贵的失败训练。

领域特定任务的微调意味着在提高某一领域性能的同时不降低模型的通用能力,而要实现这种平衡比看起来要困难得多。本文详细介绍了如何驾驭这种平衡,从为数据和任务选择合适的定制策略,到配置对结果影响最大的训练参数(如学习率、批次大小和检查点设置)。我们还介绍了导致训练运行浪费的常见错误以及如何及早发现它们,从而在不降低通用能力或浪费计算资源的情况下提高领域性能。

超参数调优的挑战 实现这种平衡比看起来要困难得多。三个基本挑战使得领域专用模型的超参数调优尤其困难。

挑战 1:灾难性遗忘 当您在狭窄的领域数据上训练模型时,模型可能会覆盖预训练期间学到的通用能力。这种现象称为灾难性遗忘,表现为在训练领域之外的任务上性能下降。模型变得高度专业化,但失去了指令遵循能力、推理能力和广泛知识。在生产中,这意味着一个针对客户服务工单微调的模型可能不再能够推理模糊的请求或保持连贯的多轮对话。

这造成了稳定性与灵活性的权衡。理想情况下,模型应该足够灵活以学习组织领域,但又足够稳定以保留通用能力。Nova Forge 通过数据混合(在训练期间将您的训练数据与精选数据集混合)和检查点选择(让您选择保留多少现有对齐)来解决这个问题。

挑战 2:找到合适的学习率 学习率控制模型权重对每批训练样本的响应程度。它是所有定制技术中最敏感的超参数。学习率过高会导致模型超调最优状态、在训练期间不稳定或快速遗忘基本能力。学习率过低则会因收敛过慢而浪费计算资源。正确的值取决于您的数据分布、混合比例和训练技术。

Nova Forge 为每种训练技术提供了校准的服务默认值,考虑了这些相互作用。当您使用数据混合时,敏感性会进一步增加。在将 Nova 数据与您自己的数据混合时,偏离默认学习率是训练不稳定的最常见原因,因此这些服务默认值是推荐的起点。

挑战 3:基线性能约束 强化微调(RFT)是一种通过生成多个候选响应并根据质量标准对其进行评分来改进模型行为的技术。模型通过比较自己的输出并强化更好的输出进行学习。RFT 在其完整的容量内工作时,需要基线任务准确率处于特定范围内(通过模型在微调前产生正确或高质量响应的频率衡量)。如果基线准确率过低(模型很少产生正确响应),就没有足够的好例子供奖励引导探索学习。如果基线准确率已经很高,额外的训练会带来递减的收益,并可能损害现有性能。这意味着 RFT 无法弥合模型根本缺乏知识或能力来尝试的任务之间的巨大能力差距。它只能优化和加强模型已经能够部分展示的行为,而不是从头教授全新的能力。

Nova Forge 管道解决了这两个边界。对于低基线场景,先运行监督微调(SFT)以建立有效奖励学习所需的基础能力。对于高基线任务,确保您的奖励函数在模型质量范围内具有区分能力。如果大多数响应已经得分很高,RFT 就没有有意义的信号可以优化。

Nova Forge 定制管道 理解这些挑战有助于了解 Amazon Nova Forge 定制管道是如何设计来应对它们的。Nova Forge 提供了三种互补的定制技术,每种技术在模型开发生命周期中都有其独特的用途。

技术:继续预训练(CPT)- 通过大规模无标注领域专有数据的自监督学习扩展基础模型(FM)知识。CPT 从文本语料库中教授模型领域术语和模式。适用于需要模型理解基础模型不存在的专业词汇、行业概念或组织知识的情况。输入数据:大量的无标注领域文本。Nova Forge 支持带数据混合的 CPT 和三种检查点选项(预训练、中期训练、后训练),每种适用于不同的数据规模和下游需求。

监督微调(SFT)- 使用特定于目标任务的一对输入-输出数据集定制模型行为。SFT 通过演示教授模型“给定 X,输出 Y”的行为。适用于需要模型遵循特定响应格式、采用特定语气或执行结构化任务(如分类或提取)的情况。输入数据:每个任务 1,000–10,000 个高质量演示。质量、一致性和多样性比数量更重要。Nova Forge 支持带数据混合的 SFT,使用 Amazon Nova 精选数据集,包括保留通用能力的推理指令遵循类别。

强化微调(RFT)- 使用奖励信号引导模型输出向偏好结果发展。RFT 在先前训练建立的行为邻域内优化模型,适用于单轮或多轮对话任务。适用于拥有能够评估响应质量的清晰奖励函数,并且希望将性能提升到 SFT 单独实现之外的情况。输入数据:提示词和奖励函数。Nova Forge 支持通过 AWS Lambda 自带外部奖励环境,实现特定领域质量评估的自定义验证逻辑。

当三个阶段结合使用时(CPT→SFT→RFT),效果最佳。但通过正确的管道,每个阶段都是可选的,取决于您的数据可用性、任务类型和起始点。CPT 仅在基础模型缺乏任务所需的领域词汇或知识时需要。SFT 和 RFT 可以独立使用或结合使用,取决于任务需求。

战略决策 有了定制管道的视角,下一步是理解塑造配置的定性权衡。这些战略决策与任何单个超参数值同样重要:检查点选择、数据混合和训练模式。

检查点选择(影响最大的决策) 对于 CPT,检查点选择比任何超参数都更具影响力。Amazon Nova Forge 提供了三个检查点选项,每个适用于不同的数据规模和下游需求。

预训练检查点最灵活,收敛最快。这些检查点容易接受新模式,最适合大规模 CPT,令牌预算超过 1000 亿。使用预训练检查点和大数据集时,可以使用较高的学习率(如 1e-4)以加速知识吸收。然后需要逐渐降低学习率至约 1e-6,以便在运行 SFT 前让模型“稳定”在所学的知识中。请注意,预训练检查点没有微调指令,CPT 后必须运行 SFT 才能使模型对下游任务有用。

中期训练检查点平衡了灵活性和对齐。它们吸收领域知识,同时保留一些指令遵循行为。适用于中型数据集,期望比后训练更快的领域适应,但比预训练更稳定。中期训练检查点适用于全秩训练(微调期间更新模型中的每个参数)和大型结构化数据集。

后训练检查点对新模式最具抵抗力,但保留指令遵循和通用能力。适用于较小规模的 CPT,当保留对齐比最大化领域知识吸收更重要时。后训练检查点是 LoRA(低秩适应)和其他参数高效微调方法的推荐起点,因为它们保持模型现有能力,同时允许有针对性的适应。对于小数据集或后期检查点,使用来自服务默认值的保守学习率值。

数据混合策略 没有数据混合,在狭窄领域数据上训练可能导致模型变得不稳定,产生不稳定的训练行为(梯度不稳定或损失峰值)或性能突然下降。

配置数据混合时,对于大多数用例,将客户数据控制在总混合的 50% 左右。对于 SFT,始终在 Nova 数据混合中包含“推理指令遵循”类别。