2026-06-10站内改写1 分钟阅读更新: 2026-06-12

Microsoft SkillOpt的编码实现：工具化提示优化、技能演化分析与基线对比

本教程完整实现了Microsoft SkillOpt的工作流程，包括环境搭建、基线评估、优化循环（rollout、反思、聚合、选择、更新、验证门控）以及训练历史可视化与最终技能比较，最终获得可部署的优化技能文件并展示了准确率提升。

来源MarkTechPost作者: Sana Hassan

本文详细实现了Microsoft SkillOpt的完整工作流程。首先，我们设置SkillOpt仓库，连接OpenAI兼容的模型访问，配置优化器（gpt-4o）和目标模型（gpt-4o-mini），并运行SearchQA优化流水线，通过限制样本数量（24个）来控制成本。接着，我们评估初始种子技能作为基线，使用eval_only脚本在未见过的验证集上获取硬匹配和软匹配分数。

然后，我们运行真正的优化循环，SkillOpt通过rollout（生成候选技能）、反思（分析错误）、聚合（合并修改）、选择（挑选最佳）、更新（应用改进）和验证门控（基于验证准确率决定是否接受）来迭代改进技能。我们配置训练参数：2个epoch、批量大小8、小批量4、学习率4（余弦调度）、慢更新和元技能等。训练过程中，我们读取history.json，使用matplotlib绘制准确率变化、编辑预算行为和累积token使用量的仪表盘。

接下来，我们检查技能演化：比较第一个技能快照与最终的最佳技能文件，查看文本差异；检查是否存在受保护的慢更新块；查看一个聚合补丁和一个反思分析的内容；并列出慢更新和元技能工件。最后，我们在验证集上评估最佳技能，与基线对比，得到硬匹配准确率的提升，最终获得可部署的best_skill.md文件。

总之，我们构建了完整的SkillOpt实验，从基线测量到技能优化，再到训练过程可视化和最终比较，展示了优化带来的性能提升，并提供了可直接用于实际应用的最佳技能文件。