2026-07-01 00:50 UTC+8站内改写3 分钟阅读更新: 2026-07-01 00:58 UTC+8

SkillOpt：将智能体技能视为可训练参数

AI智能体常因手动修改技能指令而失败。SkillOpt将技能编辑转化为训练过程，在不改变模型权重的前提下提升智能体行为的可靠性。在52个评估单元中，SkillOpt均取得最佳或并列最佳结果，且优化后的技能文件紧凑、可审计、可迁移。

来源Microsoft Research Blog作者: Yifan Yang, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Dongdong Chen, Chong Luo

大型语言模型（LLM）越来越多地被部署为能收集证据、调用工具和执行多步任务的智能体。对于这些智能体，关键问题不再是它们能否调用工具，而是能否可靠、一致地完成任务。目前，智能体技能通常来自三种方式：专家手动编写、前沿模型一次性生成，或智能体在执行后松散地修订。这些方法都不像深度学习优化器那样工作——它们缺少步长控制、留出验证，也无法记住失败的修订。结果，技能随着每次重写变得越来越长，逐渐漂移，且看似合理的修订反而可能悄然降低实际任务性能。这种不受控的技能演变已成为从智能体原型迈向可靠、生产级部署的主要障碍。

在我们的论文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》中，我们将问题从“如何写出更好的提示”重新定义为“如何训练技能”。SkillOpt将技能文件视为位于冻结目标模型外部的可训练参数，引入训练风格的优化循环，在52个评估单元上取得一致的改进，并生成紧凑、可读、可审计且可转移的技能文件。

SkillOpt的工作原理是将技能编辑组织为文本空间中的前向-反向-更新循环。在前向传递中，冻结的目标模型使用当前技能执行一批训练任务；反向传递中，单独的优化器模型读取轨迹，从成功轨迹中提炼保留模式，从失败中提取需纠正的模式。更新步骤中，优化器提出小的添加、删除和替换编辑；候选编辑被合并、去重、排名，并通过文本学习率（每步编辑预算）进行裁剪。每个候选技能必须通过严格的验证门：只有在保留的验证集上得分严格高于当前技能时才会被采用。被拒绝的编辑不会丢弃，而是进入拒绝编辑缓冲区，作为后续优化器调用的负面反馈。在较慢的节奏上，逐周期的慢/元更新整合了单批次无法揭示的更长期教训。联合使用有界编辑、验证门和最佳版本选择，使技能优化可控且可审计，确保技能收敛而非漂移。

我们在六个基准测试（SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench和ALFWorld）、七种目标模型（从前沿规模的GPT-5.5到小型开源Qwen3.5-4B）和三种执行模式（直接聊天、Codex和Claude Code）下评估了SkillOpt。与人工编写技能、一次性LLM技能、Trace2Skill、TextGrad、GEPA和EvoSkill相比，SkillOpt在所有52个评估单元中取得最佳或并列最佳结果。这些性能提升对于不更新模型权重的方法而言异常显著。使用GPT-5.5在直接聊天模式下，SkillOpt将六个基准平均分从58.8提升至82.3，绝对提升+23.5分——比选择每个单元最佳竞争方法的Oracle高+5.4分。最大的增益出现在程序性基准上：SpreadsheetBench从41.8升至80.7，OfficeQA从33.1升至72.1，LiveMathematicianBench从37.6升至66.9。同一接口也适用于智能体循环，将GPT-5.5在Codex和Claude Code中分别提升+24.8和+19.1分。

SkillOpt还缩小了小型或开源模型与前沿模型之间的差距——无需改变任何权重，也无需在推理时增加额外模型调用。优化后，GPT-5.4-mini的六个基准平均分（64.3）超过了较大模型GPT-5.4的无技能基线（59.7）；GPT-5.4-nano（57.4）超过了GPT-5.2的无技能基线（51.3）。拥有40亿参数的开源模型Qwen3.5-4B也超越了GPT-5.2的无技能基线。曾经需要更大模型才能获得的提升，现在可以通过一个优化的技能文件近似实现。

优化后的技能文件捕获了可重用的任务求解流程，而非过度拟合于单一模型、基准或执行环境的指令。它们在跨模型规模、智能体框架和相似任务迁移时仍能提升性能。最清晰的例子是跨框架迁移：在Codex内训练的电子表格技能，直接放入Claude Code且不做进一步优化，将无技能基线从22.1提升至81.8（+59.7），略高于直接在Claude Code内训练得到的80.4。由于两个框架暴露不同的工具接口，这表明SkillOpt学习的是通用工作流逻辑，而非特定于框架的配方。

最终产物best_skill.md既不是不透明的参数块，也不是不断增长的日志。在六个案例研究中，技能最终长度中位数约为920个token；由于验证门拒绝了大部分提案，最终文件中仅接受了1到4次编辑。OfficeQA的+39.0分提升来自单一接受编辑。学习的规则读起来像经验丰富的从业者的建议。组件消融确认了这些控制的作用：移除拒绝编辑缓冲区会降低所有三个消融基准的分数；同时移除元技能和慢更新会使SpreadsheetBench从77.5降至55.0。SkillOpt为智能体时代指出了更轻量级的领域适应路径：团队可以训练一个小型、可版本化、可审计的自然语言技能层——只要存在自动评估或可靠的验证器。

通过将学习率、调度、验证集、拒绝样本和慢更新引入智能体技能，SkillOpt表明训练不必局限于模型权重。模型外部的程序知识也可以被优化。当这个过程受到控制、验证并记录时，自然语言技能就成为连接前沿模型能力与实际工作负载的稳定、可迁移、可逆的适配器。