AI News HubLIVE
站內改寫3 分鐘閱讀

SkillOpt:將智能體技能視為可訓練參數

AI智能體常因手動修改技能指令而失敗。SkillOpt將技能編輯轉化為訓練過程,在不改變模型權重的前提下提升智能體行為的可靠性。在52個評估單元中,SkillOpt均取得最佳或並列最佳結果,且優化後的技能文件緊湊、可審計、可遷移。

來源Microsoft Research Blog作者: Yifan Yang, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Dongdong Chen, Chong Luo

大型語言模型(LLM)越來越多地被部署為能收集證據、調用工具和執行多步任務的智能體。對於這些智能體,關鍵問題不再是它們能否調用工具,而是能否可靠、一致地完成任務。目前,智能體技能通常來自三種方式:專家手動編寫、前沿模型一次性生成,或智能體在執行後鬆散地修訂。這些方法都不像深度學習優化器那樣工作——它們缺少步長控制、留出驗證,也無法記住失敗的修訂。結果,技能隨着每次重寫變得越來越長,逐漸漂移,且看似合理的修訂反而可能悄然降低實際任務性能。這種不受控的技能演變已成為從智能體原型邁向可靠、生產級部署的主要障礙。

在我們的論文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》中,我們將問題從“如何寫出更好的提示”重新定義為“如何訓練技能”。SkillOpt將技能文件視為位於凍結目標模型外部的可訓練參數,引入訓練風格的優化循環,在52個評估單元上取得一致的改進,並生成緊湊、可讀、可審計且可轉移的技能文件。

SkillOpt的工作原理是將技能編輯組織為文本空間中的前向-反向-更新循環。在前向傳遞中,凍結的目標模型使用當前技能執行一批訓練任務;反向傳遞中,單獨的優化器模型讀取軌跡,從成功軌跡中提煉保留模式,從失敗中提取需糾正的模式。更新步驟中,優化器提出小的添加、刪除和替換編輯;候選編輯被合併、去重、排名,並通過文本學習率(每步編輯預算)進行裁剪。每個候選技能必須通過嚴格的驗證門:只有在保留的驗證集上得分嚴格高於當前技能時才會被採用。被拒絕的編輯不會丟棄,而是進入拒絕編輯緩衝區,作為後續優化器調用的負面反饋。在較慢的節奏上,逐週期的慢/元更新整合了單批次無法揭示的更長期教訓。聯合使用有界編輯、驗證門和最佳版本選擇,使技能優化可控且可審計,確保技能收斂而非漂移。

我們在六個基準測試(SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench和ALFWorld)、七種目標模型(從前沿規模的GPT-5.5到小型開源Qwen3.5-4B)和三種執行模式(直接聊天、Codex和Claude Code)下評估了SkillOpt。與人工編寫技能、一次性LLM技能、Trace2Skill、TextGrad、GEPA和EvoSkill相比,SkillOpt在所有52個評估單元中取得最佳或並列最佳結果。這些性能提升對於不更新模型權重的方法而言異常顯著。使用GPT-5.5在直接聊天模式下,SkillOpt將六個基準平均分從58.8提升至82.3,絕對提升+23.5分——比選擇每個單元最佳競爭方法的Oracle高+5.4分。最大的增益出現在程序性基準上:SpreadsheetBench從41.8升至80.7,OfficeQA從33.1升至72.1,LiveMathematicianBench從37.6升至66.9。同一接口也適用於智能體循環,將GPT-5.5在Codex和Claude Code中分別提升+24.8和+19.1分。

SkillOpt還縮小了小型或開源模型與前沿模型之間的差距——無需改變任何權重,也無需在推理時增加額外模型調用。優化後,GPT-5.4-mini的六個基準平均分(64.3)超過了較大模型GPT-5.4的無技能基線(59.7);GPT-5.4-nano(57.4)超過了GPT-5.2的無技能基線(51.3)。擁有40億參數的開源模型Qwen3.5-4B也超越了GPT-5.2的無技能基線。曾經需要更大模型才能獲得的提升,現在可以通過一個優化的技能文件近似實現。

優化後的技能文件捕獲了可重用的任務求解流程,而非過度擬合於單一模型、基準或執行環境的指令。它們在跨模型規模、智能體框架和相似任務遷移時仍能提升性能。最清晰的例子是跨框架遷移:在Codex內訓練的電子表格技能,直接放入Claude Code且不做進一步優化,將無技能基線從22.1提升至81.8(+59.7),略高於直接在Claude Code內訓練得到的80.4。由於兩個框架暴露不同的工具接口,這表明SkillOpt學習的是通用工作流邏輯,而非特定於框架的配方。

最終產物best_skill.md既不是不透明的參數塊,也不是不斷增長的日誌。在六個案例研究中,技能最終長度中位數約為920個token;由於驗證門拒絕了大部分提案,最終文件中僅接受了1到4次編輯。OfficeQA的+39.0分提升來自單一接受編輯。學習的規則讀起來像經驗豐富的從業者的建議。組件消融確認了這些控制的作用:移除拒絕編輯緩衝區會降低所有三個消融基準的分數;同時移除元技能和慢更新會使SpreadsheetBench從77.5降至55.0。SkillOpt為智能體時代指出了更輕量級的領域適應路徑:團隊可以訓練一個小型、可版本化、可審計的自然語言技能層——只要存在自動評估或可靠的驗證器。

通過將學習率、調度、驗證集、拒絕樣本和慢更新引入智能體技能,SkillOpt表明訓練不必侷限於模型權重。模型外部的程序知識也可以被優化。當這個過程受到控制、驗證並記錄時,自然語言技能就成為連接前沿模型能力與實際工作負載的穩定、可遷移、可逆的適配器。