2026-07-01 00:50 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-01 00:58 UTC+8

SkillOpt：將智能體技能視為可訓練參數

AI智能體常因手動修改技能指令而失敗。SkillOpt將技能編輯轉化為訓練過程，在不改變模型權重的前提下提升智能體行為的可靠性。在52個評估單元中，SkillOpt均取得最佳或並列最佳結果，且優化後的技能文件緊湊、可審計、可遷移。

來源Microsoft Research Blog作者: Yifan Yang, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Dongdong Chen, Chong Luo

大型語言模型（LLM）越來越多地被部署為能收集證據、調用工具和執行多步任務的智能體。對於這些智能體，關鍵問題不再是它們能否調用工具，而是能否可靠、一致地完成任務。目前，智能體技能通常來自三種方式：專家手動編寫、前沿模型一次性生成，或智能體在執行後鬆散地修訂。這些方法都不像深度學習優化器那樣工作——它們缺少步長控制、留出驗證，也無法記住失敗的修訂。結果，技能隨着每次重寫變得越來越長，逐漸漂移，且看似合理的修訂反而可能悄然降低實際任務性能。這種不受控的技能演變已成為從智能體原型邁向可靠、生產級部署的主要障礙。

在我們的論文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》中，我們將問題從“如何寫出更好的提示”重新定義為“如何訓練技能”。SkillOpt將技能文件視為位於凍結目標模型外部的可訓練參數，引入訓練風格的優化循環，在52個評估單元上取得一致的改進，並生成緊湊、可讀、可審計且可轉移的技能文件。

SkillOpt的工作原理是將技能編輯組織為文本空間中的前向-反向-更新循環。在前向傳遞中，凍結的目標模型使用當前技能執行一批訓練任務；反向傳遞中，單獨的優化器模型讀取軌跡，從成功軌跡中提煉保留模式，從失敗中提取需糾正的模式。更新步驟中，優化器提出小的添加、刪除和替換編輯；候選編輯被合併、去重、排名，並通過文本學習率（每步編輯預算）進行裁剪。每個候選技能必須通過嚴格的驗證門：只有在保留的驗證集上得分嚴格高於當前技能時才會被採用。被拒絕的編輯不會丟棄，而是進入拒絕編輯緩衝區，作為後續優化器調用的負面反饋。在較慢的節奏上，逐週期的慢/元更新整合了單批次無法揭示的更長期教訓。聯合使用有界編輯、驗證門和最佳版本選擇，使技能優化可控且可審計，確保技能收斂而非漂移。

我們在六個基準測試（SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench和ALFWorld）、七種目標模型（從前沿規模的GPT-5.5到小型開源Qwen3.5-4B）和三種執行模式（直接聊天、Codex和Claude Code）下評估了SkillOpt。與人工編寫技能、一次性LLM技能、Trace2Skill、TextGrad、GEPA和EvoSkill相比，SkillOpt在所有52個評估單元中取得最佳或並列最佳結果。這些性能提升對於不更新模型權重的方法而言異常顯著。使用GPT-5.5在直接聊天模式下，SkillOpt將六個基準平均分從58.8提升至82.3，絕對提升+23.5分——比選擇每個單元最佳競爭方法的Oracle高+5.4分。最大的增益出現在程序性基準上：SpreadsheetBench從41.8升至80.7，OfficeQA從33.1升至72.1，LiveMathematicianBench從37.6升至66.9。同一接口也適用於智能體循環，將GPT-5.5在Codex和Claude Code中分別提升+24.8和+19.1分。

SkillOpt還縮小了小型或開源模型與前沿模型之間的差距——無需改變任何權重，也無需在推理時增加額外模型調用。優化後，GPT-5.4-mini的六個基準平均分（64.3）超過了較大模型GPT-5.4的無技能基線（59.7）；GPT-5.4-nano（57.4）超過了GPT-5.2的無技能基線（51.3）。擁有40億參數的開源模型Qwen3.5-4B也超越了GPT-5.2的無技能基線。曾經需要更大模型才能獲得的提升，現在可以通過一個優化的技能文件近似實現。

優化後的技能文件捕獲了可重用的任務求解流程，而非過度擬合於單一模型、基準或執行環境的指令。它們在跨模型規模、智能體框架和相似任務遷移時仍能提升性能。最清晰的例子是跨框架遷移：在Codex內訓練的電子表格技能，直接放入Claude Code且不做進一步優化，將無技能基線從22.1提升至81.8（+59.7），略高於直接在Claude Code內訓練得到的80.4。由於兩個框架暴露不同的工具接口，這表明SkillOpt學習的是通用工作流邏輯，而非特定於框架的配方。

最終產物best_skill.md既不是不透明的參數塊，也不是不斷增長的日誌。在六個案例研究中，技能最終長度中位數約為920個token；由於驗證門拒絕了大部分提案，最終文件中僅接受了1到4次編輯。OfficeQA的+39.0分提升來自單一接受編輯。學習的規則讀起來像經驗豐富的從業者的建議。組件消融確認了這些控制的作用：移除拒絕編輯緩衝區會降低所有三個消融基準的分數；同時移除元技能和慢更新會使SpreadsheetBench從77.5降至55.0。SkillOpt為智能體時代指出了更輕量級的領域適應路徑：團隊可以訓練一個小型、可版本化、可審計的自然語言技能層——只要存在自動評估或可靠的驗證器。

通過將學習率、調度、驗證集、拒絕樣本和慢更新引入智能體技能，SkillOpt表明訓練不必侷限於模型權重。模型外部的程序知識也可以被優化。當這個過程受到控制、驗證並記錄時，自然語言技能就成為連接前沿模型能力與實際工作負載的穩定、可遷移、可逆的適配器。