SkillOpt:将智能体技能视为可训练参数
AI智能体常因手动修改技能指令而失败。SkillOpt将技能编辑转化为训练过程,在不改变模型权重的前提下提升智能体行为的可靠性。在52个评估单元中,SkillOpt均取得最佳或并列最佳结果,且优化后的技能文件紧凑、可审计、可迁移。
大型语言模型(LLM)越来越多地被部署为能收集证据、调用工具和执行多步任务的智能体。对于这些智能体,关键问题不再是它们能否调用工具,而是能否可靠、一致地完成任务。目前,智能体技能通常来自三种方式:专家手动编写、前沿模型一次性生成,或智能体在执行后松散地修订。这些方法都不像深度学习优化器那样工作——它们缺少步长控制、留出验证,也无法记住失败的修订。结果,技能随着每次重写变得越来越长,逐渐漂移,且看似合理的修订反而可能悄然降低实际任务性能。这种不受控的技能演变已成为从智能体原型迈向可靠、生产级部署的主要障碍。
在我们的论文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》中,我们将问题从“如何写出更好的提示”重新定义为“如何训练技能”。SkillOpt将技能文件视为位于冻结目标模型外部的可训练参数,引入训练风格的优化循环,在52个评估单元上取得一致的改进,并生成紧凑、可读、可审计且可转移的技能文件。
SkillOpt的工作原理是将技能编辑组织为文本空间中的前向-反向-更新循环。在前向传递中,冻结的目标模型使用当前技能执行一批训练任务;反向传递中,单独的优化器模型读取轨迹,从成功轨迹中提炼保留模式,从失败中提取需纠正的模式。更新步骤中,优化器提出小的添加、删除和替换编辑;候选编辑被合并、去重、排名,并通过文本学习率(每步编辑预算)进行裁剪。每个候选技能必须通过严格的验证门:只有在保留的验证集上得分严格高于当前技能时才会被采用。被拒绝的编辑不会丢弃,而是进入拒绝编辑缓冲区,作为后续优化器调用的负面反馈。在较慢的节奏上,逐周期的慢/元更新整合了单批次无法揭示的更长期教训。联合使用有界编辑、验证门和最佳版本选择,使技能优化可控且可审计,确保技能收敛而非漂移。
我们在六个基准测试(SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench和ALFWorld)、七种目标模型(从前沿规模的GPT-5.5到小型开源Qwen3.5-4B)和三种执行模式(直接聊天、Codex和Claude Code)下评估了SkillOpt。与人工编写技能、一次性LLM技能、Trace2Skill、TextGrad、GEPA和EvoSkill相比,SkillOpt在所有52个评估单元中取得最佳或并列最佳结果。这些性能提升对于不更新模型权重的方法而言异常显著。使用GPT-5.5在直接聊天模式下,SkillOpt将六个基准平均分从58.8提升至82.3,绝对提升+23.5分——比选择每个单元最佳竞争方法的Oracle高+5.4分。最大的增益出现在程序性基准上:SpreadsheetBench从41.8升至80.7,OfficeQA从33.1升至72.1,LiveMathematicianBench从37.6升至66.9。同一接口也适用于智能体循环,将GPT-5.5在Codex和Claude Code中分别提升+24.8和+19.1分。
SkillOpt还缩小了小型或开源模型与前沿模型之间的差距——无需改变任何权重,也无需在推理时增加额外模型调用。优化后,GPT-5.4-mini的六个基准平均分(64.3)超过了较大模型GPT-5.4的无技能基线(59.7);GPT-5.4-nano(57.4)超过了GPT-5.2的无技能基线(51.3)。拥有40亿参数的开源模型Qwen3.5-4B也超越了GPT-5.2的无技能基线。曾经需要更大模型才能获得的提升,现在可以通过一个优化的技能文件近似实现。
优化后的技能文件捕获了可重用的任务求解流程,而非过度拟合于单一模型、基准或执行环境的指令。它们在跨模型规模、智能体框架和相似任务迁移时仍能提升性能。最清晰的例子是跨框架迁移:在Codex内训练的电子表格技能,直接放入Claude Code且不做进一步优化,将无技能基线从22.1提升至81.8(+59.7),略高于直接在Claude Code内训练得到的80.4。由于两个框架暴露不同的工具接口,这表明SkillOpt学习的是通用工作流逻辑,而非特定于框架的配方。
最终产物best_skill.md既不是不透明的参数块,也不是不断增长的日志。在六个案例研究中,技能最终长度中位数约为920个token;由于验证门拒绝了大部分提案,最终文件中仅接受了1到4次编辑。OfficeQA的+39.0分提升来自单一接受编辑。学习的规则读起来像经验丰富的从业者的建议。组件消融确认了这些控制的作用:移除拒绝编辑缓冲区会降低所有三个消融基准的分数;同时移除元技能和慢更新会使SpreadsheetBench从77.5降至55.0。SkillOpt为智能体时代指出了更轻量级的领域适应路径:团队可以训练一个小型、可版本化、可审计的自然语言技能层——只要存在自动评估或可靠的验证器。
通过将学习率、调度、验证集、拒绝样本和慢更新引入智能体技能,SkillOpt表明训练不必局限于模型权重。模型外部的程序知识也可以被优化。当这个过程受到控制、验证并记录时,自然语言技能就成为连接前沿模型能力与实际工作负载的稳定、可迁移、可逆的适配器。