2026-06-13站内改写3 分钟阅读更新: 2026-06-13

微软SkillOpt：仅凭一个训练过的Markdown文件，就能让GPT-5.5大幅提升

微软与三所中国大学合作开发了SkillOpt方法，通过训练指令文档（技能）来优化AI智能体，灵感来自传统模型训练。仅需一个简单的Markdown文件，即可在程序性任务上将GPT-5.5的性能提升约23个点，且该文件可在不同模型和智能体环境（如Codex和Claude Code）间迁移。

来源The Decoder作者: Jonathan Kemper

文章情报

工程师进阶

要点

SkillOpt将技能文档视为可训练的外部状态，使用独立优化器模型提出有限编辑，仅接受能提升验证集性能的更改。
在GPT-5.5上，所有六项基准测试平均提升约23个点，尤其对格式严格和工具使用任务效果显著。
技能文档可跨模型和跨环境迁移，例如在Codex上训练的电子表格技能可直接用于Claude Code。
最终技能文档紧凑（不超过2000词元），通常仅需1-4次编辑即可带来显著改进，规则读起来像经验丰富的从业者笔记。

为什么重要

这条新闻值得关注，因为SkillOpt将技能文档视为可训练的外部状态，使用独立优化器模型提出有限编辑，仅接受能提升验证集性能的更改。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

微软与三所中国大学的研究人员合作开发了SkillOpt方法，该方法通过训练AI智能体的指令文档（即“技能”），显著提升了模型在程序性任务上的表现。令人惊讶的是，这一提升仅依靠一个简单的Markdown文件即可实现——据称能使GPT-5.5的性能提升超过20个点。

这类指令文档在商业产品中已不鲜见。例如，Anthropic去年为Claude添加了模块化技能系统，可根据任务自动加载特定主题的指令、脚本和资源。技能通常包含程序流程、工具使用规则、输出格式以及已知的失败模式，已成为一种标准做法。然而，根据微软团队的论文，此前这些技能要么由人工编写，要么由语言模型单次生成，要么进行简单的自我修订。这些方法均未表现出真正的优化行为，也无法保证技能确实带来改进。

SkillOpt的核心创新在于将技能文档视为冻结目标模型的外部可训练状态。一个独立的语言模型作为优化器，通过分析智能体运行的日志，发现重复出现的错误和成功模式，并提出有限的编辑建议——添加、删除或替换个别段落。每次更改只有在保持验证集上表现更好时才被接受。

研究团队将多种深度学习概念映射到文本层面：学习率限制了每一步允许的编辑数量；调度器在多个训练周期中逐步减小步长；被拒绝的编辑存入缓冲区，作为后续反思的负面示例；每个周期结束时的缓慢更新则保留了跨训练轮次的稳定编辑方向，类似于传统训练中的梯度平滑。

这种方法的实用之处在于训练与部署的清晰分离。优化器模型仅在训练过程中运行，一旦完成便不再参与。推理时，目标模型只需接收一个300到2000词元的纯Markdown文件作为上下文。

在六个基准测试（涵盖搜索、电子表格、文档分析、数学和具身行动）上，研究人员测试了七个目标模型，包括GPT-5.5和更小的Qwen3.5-4B，任务在直接聊天以及Codex和Claude Code等智能体环境中运行。在所有组合中，SkillOpt均达到或超越了最佳对比结果——包括人工编写的技能、一次生成的LLM技能以及Trace2Skill、TextGrad、GEPA和EvoSkill等专门方法。在GPT-5.5上，所有六项基准的平均提升约为23个点。

最大的增益出现在格式要求严格且涉及工具使用的任务上，如电子表格编辑。较小的模型同样受益，研究人员认为这证明了一个训练有素的技能能够提供这些模型权重中缺乏的程序性知识。

关键发现之一是技能的可迁移性：在大模型上训练的技能同样能提升同系列较小模型的表现；在Codex循环中训练的电子表格技能可直接用于Claude Code，并达到同等性能；针对奥林匹克数学问题优化的数学技能，在相关基准上无需重新训练即可带来提升。

消融研究解释了该方法保持稳定的原因：如果没有限制的编辑预算，技能会在每次修订中偏离过远；如果没有被拒绝编辑的缓冲区，优化器会重复相同的失败尝试；移除周期末的缓慢更新导致SpreadsheetBench性能下降超过20个点，是整个实验中最大的降幅。研究人员表示，只有将有限步长、验证门控、负面反馈和长期巩固结合起来，才能使技能训练成为一个受控的优化过程。

最终技能保持紧凑：完成后的文档很少超过2000词元，改进仅来自四个训练周期中的一到四次接受的编辑。在OfficeQA上，最大的增益来自一次单一更改。学到的规则读起来就像经验丰富的从业者在使用基准一天后随手记下的笔记。例如，对于电子表格，技能学会了先检查工作表结构，然后直接将计算值写入整个目标范围，而不是使用Excel公式；对于ALFWorld，它记录访问过的位置，并在拾取目标对象之前避免前往目标区域；对于文档问题，它在接受答案前将问题锚定到正确的表格行。这些规则均不针对具体任务，而是描述程序。

研究人员承认该方法依赖于可靠的自动评分。对于开放式任务，验证步骤需要人工或模型判断。SkillOpt还特意优化单个文档而非技能库，这在高度多样化的领域可能成为瓶颈。

与当前大多数自我改进方法（最终会调整模型权重）不同，SkillOpt采用了一条极其简洁的路径。OpenClaw-RL等框架利用每次交互的后续信号（如用户响应或测试结果作为实时训练来源。MetaClaw则从失败任务中提取紧凑的行为规则并注入提示，仅在空闲阶段通过强化学习更新权重。一个与SkillOpt的相似之处是：两者中较弱的模型受益最大，因为它们缺乏规则或技能可以直接提供的程序性知识。其他团队走得更远：AutoTTS让编码智能体自行搜索更好的推理控制算法，将人类角色从设计规则转向设计环境；Meta的Hyperagents则优化自我改进的机制本身。相比之下，SkillOpt保持模型冻结，仅改变一个可读的文本文件。