2026-06-13站内改写3 分鐘閱讀更新: 2026-06-13

微軟SkillOpt：僅憑一個訓練過的Markdown文件，就能讓GPT-5.5大幅提升

微軟與三所中國大學合作開發了SkillOpt方法，通過訓練指令文檔（技能）來優化AI智能體，靈感來自傳統模型訓練。僅需一個簡單的Markdown文件，即可在程序性任務上將GPT-5.5的性能提升約23個點，且該文件可在不同模型和智能體環境（如Codex和Claude Code）間遷移。

來源The Decoder作者: Jonathan Kemper

文章情報

工程師進階

要點

SkillOpt將技能文檔視為可訓練的外部狀態，使用獨立優化器模型提出有限編輯，僅接受能提升驗證集性能的更改。
在GPT-5.5上，所有六項基準測試平均提升約23個點，尤其對格式嚴格和工具使用任務效果顯著。
技能文檔可跨模型和跨環境遷移，例如在Codex上訓練的電子表格技能可直接用於Claude Code。
最終技能文檔緊湊（不超過2000詞元），通常僅需1-4次編輯即可帶來顯著改進，規則讀起來像經驗豐富的從業者筆記。

為甚麼重要

這條新聞值得關注，因為SkillOpt將技能文檔視為可訓練的外部狀態，使用獨立優化器模型提出有限編輯，僅接受能提升驗證集性能的更改。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

微軟與三所中國大學的研究人員合作開發了SkillOpt方法，該方法通過訓練AI智能體的指令文檔（即“技能”），顯著提升了模型在程序性任務上的表現。令人驚訝的是，這一提升僅依靠一個簡單的Markdown文件即可實現——據稱能使GPT-5.5的性能提升超過20個點。

這類指令文檔在商業產品中已不鮮見。例如，Anthropic去年為Claude添加了模塊化技能系統，可根據任務自動加載特定主題的指令、腳本和資源。技能通常包含程序流程、工具使用規則、輸出格式以及已知的失敗模式，已成為一種標準做法。然而，根據微軟團隊的論文，此前這些技能要麼由人工編寫，要麼由語言模型單次生成，要麼進行簡單的自我修訂。這些方法均未表現出真正的優化行為，也無法保證技能確實帶來改進。

SkillOpt的核心創新在於將技能文檔視為凍結目標模型的外部可訓練狀態。一個獨立的語言模型作為優化器，通過分析智能體運行的日誌，發現重複出現的錯誤和成功模式，並提出有限的編輯建議——添加、刪除或替換個別段落。每次更改只有在保持驗證集上表現更好時才被接受。

研究團隊將多種深度學習概念映射到文本層面：學習率限制了每一步允許的編輯數量；調度器在多個訓練週期中逐步減小步長；被拒絕的編輯存入緩衝區，作為後續反思的負面示例；每個週期結束時的緩慢更新則保留了跨訓練輪次的穩定編輯方向，類似於傳統訓練中的梯度平滑。

這種方法的實用之處在於訓練與部署的清晰分離。優化器模型僅在訓練過程中運行，一旦完成便不再參與。推理時，目標模型只需接收一個300到2000詞元的純Markdown文件作為上下文。

在六個基準測試（涵蓋搜索、電子表格、文檔分析、數學和具身行動）上，研究人員測試了七個目標模型，包括GPT-5.5和更小的Qwen3.5-4B，任務在直接聊天以及Codex和Claude Code等智能體環境中運行。在所有組合中，SkillOpt均達到或超越了最佳對比結果——包括人工編寫的技能、一次生成的LLM技能以及Trace2Skill、TextGrad、GEPA和EvoSkill等專門方法。在GPT-5.5上，所有六項基準的平均提升約為23個點。

最大的增益出現在格式要求嚴格且涉及工具使用的任務上，如電子表格編輯。較小的模型同樣受益，研究人員認為這證明了一個訓練有素的技能能夠提供這些模型權重中缺乏的程序性知識。

關鍵發現之一是技能的可遷移性：在大模型上訓練的技能同樣能提升同系列較小模型的表現；在Codex循環中訓練的電子表格技能可直接用於Claude Code，並達到同等性能；針對奧林匹克數學問題優化的數學技能，在相關基準上無需重新訓練即可帶來提升。

消融研究解釋了該方法保持穩定的原因：如果沒有限制的編輯預算，技能會在每次修訂中偏離過遠；如果沒有被拒絕編輯的緩衝區，優化器會重複相同的失敗嘗試；移除週期末的緩慢更新導致SpreadsheetBench性能下降超過20個點，是整個實驗中最大的降幅。研究人員表示，只有將有限步長、驗證門控、負面反饋和長期鞏固結合起來，才能使技能訓練成為一個受控的優化過程。

最終技能保持緊湊：完成後的文檔很少超過2000詞元，改進僅來自四個訓練週期中的一到四次接受的編輯。在OfficeQA上，最大的增益來自一次單一更改。學到的規則讀起來就像經驗豐富的從業者在使用基準一天後隨手記下的筆記。例如，對於電子表格，技能學會了先檢查工作表結構，然後直接將計算值寫入整個目標範圍，而不是使用Excel公式；對於ALFWorld，它記錄訪問過的位置，並在拾取目標對象之前避免前往目標區域；對於文檔問題，它在接受答案前將問題錨定到正確的表格行。這些規則均不針對具體任務，而是描述程序。

研究人員承認該方法依賴於可靠的自動評分。對於開放式任務，驗證步驟需要人工或模型判斷。SkillOpt還特意優化單個文檔而非技能庫，這在高度多樣化的領域可能成為瓶頸。

與當前大多數自我改進方法（最終會調整模型權重）不同，SkillOpt採用了一條極其簡潔的路徑。OpenClaw-RL等框架利用每次交互的後續信號（如用户響應或測試結果作為實時訓練來源。MetaClaw則從失敗任務中提取緊湊的行為規則並注入提示，僅在空閒階段通過強化學習更新權重。一個與SkillOpt的相似之處是：兩者中較弱的模型受益最大，因為它們缺乏規則或技能可以直接提供的程序性知識。其他團隊走得更遠：AutoTTS讓編碼智能體自行搜索更好的推理控制算法，將人類角色從設計規則轉向設計環境；Meta的Hyperagents則優化自我改進的機制本身。相比之下，SkillOpt保持模型凍結，僅改變一個可讀的文本文件。