2026-06-03 08:51 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

如何使用QLoRA和DPO在Google Colab上微调LFM2：完整的分步编程教程

本教程详细介绍了如何在Google Colab上使用QLoRA、监督微调（SFT）和直接偏好优化（DPO）微调Liquid AI的LFM2模型。包括加载模型、准备数据集、训练LoRA适配器、合并适配器以及进行DPO训练的全流程，最终获得一个可部署的模型检查点。

来源MarkTechPost作者: Sana Hassan

本教程演示了如何使用完全开源的工作流程微调Liquid AI的LFM2模型。首先，我们通过QLoRA加载基础LFM2检查点，准备聊天风格的监督微调数据集，使用TRL和PEFT训练轻量级LoRA适配器，然后将适配器合并回模型。我们还扩展了工作流程，使用DPO来展示如何通过选择的和拒绝的答案改进响应偏好。最终，我们获得了一个从基础LFM2模型到SFT调优、偏好对齐的检查点的实用管道，可供进一步测试或部署。

教程首先安装必要的库，包括Transformers、TRL、PEFT、datasets、bitsandbytes和PyTorch。然后定义训练设置，检测GPU并选择适当的精度。接下来，加载LFM2基础模型，可选择4位量化以减少GPU内存使用。准备分词器，并定义一个聊天函数用于测试模型响应。在微调前，我们运行一个基线提示以比较模型行为。

然后，我们加载聊天格式的监督微调数据集，仅保留消息列。配置LoRA用于轻量级适配器训练，并定义SFT训练设置。使用SFT训练模型，保存LoRA适配器，并测试改进后的模型响应。之后，我们清理内存，重新加载基础模型，附加训练好的SFT LoRA适配器，合并适配器并保存合并后的SFT检查点。

可选地，我们使用提示-选择-拒绝响应对运行DPO。配置另一个LoRA适配器用于偏好调优，并在SFT合并模型上训练DPO。最后，合并DPO适配器，保存最终模型检查点，并与之前的输出进行比较。

总之，我们使用完全开源的工具构建了LFM2的完整微调管道，包括Transformers、TRL、PEFT、datasets和bitsandbytes。我们使用QLoRA使训练在Colab GPU上高效，应用监督微调于聊天格式数据，将训练好的适配器合并到基础模型中，并可选地通过DPO进一步改进模型。这让我们清楚地看到现代LLM微调的实际工作方式，从加载模型到生成可与原始基线比较并准备部署的最终检查点。