2026-07-01 00:50 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-01 00:58 UTC+8

SkillOpt：將智慧體技能視為可訓練引數

AI智慧體常因手動修改技能指令而失敗。SkillOpt將技能編輯轉化為訓練過程，在不改變模型權重的前提下提升智慧體行為的可靠性。在52個評估單元中，SkillOpt均取得最佳或並列最佳結果，且最佳化後的技能檔案緊湊、可審計、可遷移。

來源Microsoft Research Blog作者: Yifan Yang, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Dongdong Chen, Chong Luo

大型語言模型（LLM）越來越多地被部署為能收集證據、呼叫工具和執行多步任務的智慧體。對於這些智慧體，關鍵問題不再是它們能否呼叫工具，而是能否可靠、一致地完成任務。目前，智慧體技能通常來自三種方式：專家手動編寫、前沿模型一次性生成，或智慧體在執行後鬆散地修訂。這些方法都不像深度學習最佳化器那樣工作——它們缺少步長控制、留出驗證，也無法記住失敗的修訂。結果，技能隨著每次重寫變得越來越長，逐漸漂移，且看似合理的修訂反而可能悄然降低實際任務效能。這種不受控的技能演變已成為從智慧體原型邁向可靠、生產級部署的主要障礙。

在我們的論文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》中，我們將問題從“如何寫出更好的提示”重新定義為“如何訓練技能”。SkillOpt將技能檔案視為位於凍結目標模型外部的可訓練引數，引入訓練風格的最佳化迴圈，在52個評估單元上取得一致的改進，並生成緊湊、可讀、可審計且可轉移的技能檔案。

SkillOpt的工作原理是將技能編輯組織為文本空間中的前向-反向-更新迴圈。在前向傳遞中，凍結的目標模型使用當前技能執行一批訓練任務；反向傳遞中，單獨的最佳化器模型讀取軌跡，從成功軌跡中提煉保留模式，從失敗中提取需糾正的模式。更新步驟中，最佳化器提出小的新增、刪除和替換編輯；候選編輯被合併、去重、排名，並透過文本學習率（每步編輯預算）進行裁剪。每個候選技能必須透過嚴格的驗證門：只有在保留的驗證集上得分嚴格高於當前技能時才會被採用。被拒絕的編輯不會丟棄，而是進入拒絕編輯緩衝區，作為後續最佳化器呼叫的負面反饋。在較慢的節奏上，逐週期的慢/元更新整合了單批次無法揭示的更長期教訓。聯合使用有界編輯、驗證門和最佳版本選擇，使技能最佳化可控且可審計，確保技能收斂而非漂移。

我們在六個基準測試（SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench和ALFWorld）、七種目標模型（從前沿規模的GPT-5.5到小型開源Qwen3.5-4B）和三種執行模式（直接聊天、Codex和Claude Code）下評估了SkillOpt。與人工編寫技能、一次性LLM技能、Trace2Skill、TextGrad、GEPA和EvoSkill相比，SkillOpt在所有52個評估單元中取得最佳或並列最佳結果。這些效能提升對於不更新模型權重的方法而言異常顯著。使用GPT-5.5在直接聊天模式下，SkillOpt將六個基準平均分從58.8提升至82.3，絕對提升+23.5分——比選擇每個單元最佳競爭方法的Oracle高+5.4分。最大的增益出現在程式性基準上：SpreadsheetBench從41.8升至80.7，OfficeQA從33.1升至72.1，LiveMathematicianBench從37.6升至66.9。同一介面也適用於智慧體迴圈，將GPT-5.5在Codex和Claude Code中分別提升+24.8和+19.1分。

SkillOpt還縮小了小型或開源模型與前沿模型之間的差距——無需改變任何權重，也無需在推理時增加額外模型呼叫。最佳化後，GPT-5.4-mini的六個基準平均分（64.3）超過了較大模型GPT-5.4的無技能基線（59.7）；GPT-5.4-nano（57.4）超過了GPT-5.2的無技能基線（51.3）。擁有40億引數的開源模型Qwen3.5-4B也超越了GPT-5.2的無技能基線。曾經需要更大模型才能獲得的提升，現在可以透過一個最佳化的技能檔案近似實現。

最佳化後的技能檔案捕獲了可重用的任務求解流程，而非過度擬合於單一模型、基準或執行環境的指令。它們在跨模型規模、智慧體框架和相似任務遷移時仍能提升效能。最清晰的例子是跨框架遷移：在Codex內訓練的電子表格技能，直接放入Claude Code且不做進一步最佳化，將無技能基線從22.1提升至81.8（+59.7），略高於直接在Claude Code內訓練得到的80.4。由於兩個框架暴露不同的工具介面，這表明SkillOpt學習的是通用工作流邏輯，而非特定於框架的配方。

最終產物best_skill.md既不是不透明的引數塊，也不是不斷增長的日誌。在六個案例研究中，技能最終長度中位數約為920個token；由於驗證門拒絕了大部分提案，最終檔案中僅接受了1到4次編輯。OfficeQA的+39.0分提升來自單一接受編輯。學習的規則讀起來像經驗豐富的從業者的建議。元件消融確認了這些控制的作用：移除拒絕編輯緩衝區會降低所有三個消融基準的分數；同時移除元技能和慢更新會使SpreadsheetBench從77.5降至55.0。SkillOpt為智慧體時代指出了更輕量級的領域適應路徑：團隊可以訓練一個小型、可版本化、可審計的自然語言技能層——只要存在自動評估或可靠的驗證器。

透過將學習率、排程、驗證集、拒絕樣本和慢更新引入智慧體技能，SkillOpt表明訓練不必侷限於模型權重。模型外部的程式知識也可以被最佳化。當這個過程受到控制、驗證並記錄時，自然語言技能就成為連線前沿模型能力與實際工作負載的穩定、可遷移、可逆的介面卡。