SkillOpt:將智慧體技能視為可訓練引數
AI智慧體常因手動修改技能指令而失敗。SkillOpt將技能編輯轉化為訓練過程,在不改變模型權重的前提下提升智慧體行為的可靠性。在52個評估單元中,SkillOpt均取得最佳或並列最佳結果,且最佳化後的技能檔案緊湊、可審計、可遷移。
大型語言模型(LLM)越來越多地被部署為能收集證據、呼叫工具和執行多步任務的智慧體。對於這些智慧體,關鍵問題不再是它們能否呼叫工具,而是能否可靠、一致地完成任務。目前,智慧體技能通常來自三種方式:專家手動編寫、前沿模型一次性生成,或智慧體在執行後鬆散地修訂。這些方法都不像深度學習最佳化器那樣工作——它們缺少步長控制、留出驗證,也無法記住失敗的修訂。結果,技能隨著每次重寫變得越來越長,逐漸漂移,且看似合理的修訂反而可能悄然降低實際任務效能。這種不受控的技能演變已成為從智慧體原型邁向可靠、生產級部署的主要障礙。
在我們的論文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》中,我們將問題從“如何寫出更好的提示”重新定義為“如何訓練技能”。SkillOpt將技能檔案視為位於凍結目標模型外部的可訓練引數,引入訓練風格的最佳化迴圈,在52個評估單元上取得一致的改進,並生成緊湊、可讀、可審計且可轉移的技能檔案。
SkillOpt的工作原理是將技能編輯組織為文本空間中的前向-反向-更新迴圈。在前向傳遞中,凍結的目標模型使用當前技能執行一批訓練任務;反向傳遞中,單獨的最佳化器模型讀取軌跡,從成功軌跡中提煉保留模式,從失敗中提取需糾正的模式。更新步驟中,最佳化器提出小的新增、刪除和替換編輯;候選編輯被合併、去重、排名,並透過文本學習率(每步編輯預算)進行裁剪。每個候選技能必須透過嚴格的驗證門:只有在保留的驗證集上得分嚴格高於當前技能時才會被採用。被拒絕的編輯不會丟棄,而是進入拒絕編輯緩衝區,作為後續最佳化器呼叫的負面反饋。在較慢的節奏上,逐週期的慢/元更新整合了單批次無法揭示的更長期教訓。聯合使用有界編輯、驗證門和最佳版本選擇,使技能最佳化可控且可審計,確保技能收斂而非漂移。
我們在六個基準測試(SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench和ALFWorld)、七種目標模型(從前沿規模的GPT-5.5到小型開源Qwen3.5-4B)和三種執行模式(直接聊天、Codex和Claude Code)下評估了SkillOpt。與人工編寫技能、一次性LLM技能、Trace2Skill、TextGrad、GEPA和EvoSkill相比,SkillOpt在所有52個評估單元中取得最佳或並列最佳結果。這些效能提升對於不更新模型權重的方法而言異常顯著。使用GPT-5.5在直接聊天模式下,SkillOpt將六個基準平均分從58.8提升至82.3,絕對提升+23.5分——比選擇每個單元最佳競爭方法的Oracle高+5.4分。最大的增益出現在程式性基準上:SpreadsheetBench從41.8升至80.7,OfficeQA從33.1升至72.1,LiveMathematicianBench從37.6升至66.9。同一介面也適用於智慧體迴圈,將GPT-5.5在Codex和Claude Code中分別提升+24.8和+19.1分。
SkillOpt還縮小了小型或開源模型與前沿模型之間的差距——無需改變任何權重,也無需在推理時增加額外模型呼叫。最佳化後,GPT-5.4-mini的六個基準平均分(64.3)超過了較大模型GPT-5.4的無技能基線(59.7);GPT-5.4-nano(57.4)超過了GPT-5.2的無技能基線(51.3)。擁有40億引數的開源模型Qwen3.5-4B也超越了GPT-5.2的無技能基線。曾經需要更大模型才能獲得的提升,現在可以透過一個最佳化的技能檔案近似實現。
最佳化後的技能檔案捕獲了可重用的任務求解流程,而非過度擬合於單一模型、基準或執行環境的指令。它們在跨模型規模、智慧體框架和相似任務遷移時仍能提升效能。最清晰的例子是跨框架遷移:在Codex內訓練的電子表格技能,直接放入Claude Code且不做進一步最佳化,將無技能基線從22.1提升至81.8(+59.7),略高於直接在Claude Code內訓練得到的80.4。由於兩個框架暴露不同的工具介面,這表明SkillOpt學習的是通用工作流邏輯,而非特定於框架的配方。
最終產物best_skill.md既不是不透明的引數塊,也不是不斷增長的日誌。在六個案例研究中,技能最終長度中位數約為920個token;由於驗證門拒絕了大部分提案,最終檔案中僅接受了1到4次編輯。OfficeQA的+39.0分提升來自單一接受編輯。學習的規則讀起來像經驗豐富的從業者的建議。元件消融確認了這些控制的作用:移除拒絕編輯緩衝區會降低所有三個消融基準的分數;同時移除元技能和慢更新會使SpreadsheetBench從77.5降至55.0。SkillOpt為智慧體時代指出了更輕量級的領域適應路徑:團隊可以訓練一個小型、可版本化、可審計的自然語言技能層——只要存在自動評估或可靠的驗證器。
透過將學習率、排程、驗證集、拒絕樣本和慢更新引入智慧體技能,SkillOpt表明訓練不必侷限於模型權重。模型外部的程式知識也可以被最佳化。當這個過程受到控制、驗證並記錄時,自然語言技能就成為連線前沿模型能力與實際工作負載的穩定、可遷移、可逆的介面卡。