2026-06-13站内改写3 分鐘閱讀更新: 2026-06-13

微軟SkillOpt：僅憑一個訓練過的Markdown檔案，就能讓GPT-5.5大幅提升

微軟與三所中國大學合作開發了SkillOpt方法，透過訓練指令文件（技能）來最佳化AI智慧體，靈感來自傳統模型訓練。僅需一個簡單的Markdown檔案，即可在程式性任務上將GPT-5.5的效能提升約23個點，且該檔案可在不同模型和智慧體環境（如Codex和Claude Code）間遷移。

來源The Decoder作者: Jonathan Kemper

文章情報

工程師進階

要點

SkillOpt將技能文件視為可訓練的外部狀態，使用獨立最佳化器模型提出有限編輯，僅接受能提升驗證集效能的更改。
在GPT-5.5上，所有六項基準測試平均提升約23個點，尤其對格式嚴格和工具使用任務效果顯著。
技能文件可跨模型和跨環境遷移，例如在Codex上訓練的電子表格技能可直接用於Claude Code。
最終技能文件緊湊（不超過2000詞元），通常僅需1-4次編輯即可帶來顯著改進，規則讀起來像經驗豐富的從業者筆記。

為什麼重要

這條新聞值得關注，因為SkillOpt將技能文件視為可訓練的外部狀態，使用獨立最佳化器模型提出有限編輯，僅接受能提升驗證集效能的更改。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

微軟與三所中國大學的研究人員合作開發了SkillOpt方法，該方法透過訓練AI智慧體的指令文件（即“技能”），顯著提升了模型在程式性任務上的表現。令人驚訝的是，這一提升僅依靠一個簡單的Markdown檔案即可實現——據稱能使GPT-5.5的效能提升超過20個點。

這類指令文件在商業產品中已不鮮見。例如，Anthropic去年為Claude新增了模組化技能系統，可根據任務自動載入特定主題的指令、指令碼和資源。技能通常包含程式流程、工具使用規則、輸出格式以及已知的失敗模式，已成為一種標準做法。然而，根據微軟團隊的論文，此前這些技能要麼由人工編寫，要麼由語言模型單次生成，要麼進行簡單的自我修訂。這些方法均未表現出真正的最佳化行為，也無法保證技能確實帶來改進。

SkillOpt的核心創新在於將技能文件視為凍結目標模型的外部可訓練狀態。一個獨立的語言模型作為最佳化器，透過分析智慧體執行的日誌，發現重複出現的錯誤和成功模式，並提出有限的編輯建議——新增、刪除或替換個別段落。每次更改只有在保持驗證集上表現更好時才被接受。

研究團隊將多種深度學習概念對映到文本層面：學習率限制了每一步允許的編輯數量；排程器在多個訓練週期中逐步減小步長；被拒絕的編輯存入緩衝區，作為後續反思的負面示例；每個週期結束時的緩慢更新則保留了跨訓練輪次的穩定編輯方向，類似於傳統訓練中的梯度平滑。

這種方法的實用之處在於訓練與部署的清晰分離。最佳化器模型僅在訓練過程中執行，一旦完成便不再參與。推理時，目標模型只需接收一個300到2000詞元的純Markdown檔案作為上下文。

在六個基準測試（涵蓋搜尋、電子表格、文件分析、數學和具身行動）上，研究人員測試了七個目標模型，包括GPT-5.5和更小的Qwen3.5-4B，任務在直接聊天以及Codex和Claude Code等智慧體環境中執行。在所有組合中，SkillOpt均達到或超越了最佳對比結果——包括人工編寫的技能、一次生成的LLM技能以及Trace2Skill、TextGrad、GEPA和EvoSkill等專門方法。在GPT-5.5上，所有六項基準的平均提升約為23個點。

最大的增益出現在格式要求嚴格且涉及工具使用的任務上，如電子表格編輯。較小的模型同樣受益，研究人員認為這證明了一個訓練有素的技能能夠提供這些模型權重中缺乏的程式性知識。

關鍵發現之一是技能的可遷移性：在大模型上訓練的技能同樣能提升同系列較小模型的表現；在Codex迴圈中訓練的電子表格技能可直接用於Claude Code，並達到同等效能；針對奧林匹克數學問題最佳化的數學技能，在相關基準上無需重新訓練即可帶來提升。

消融研究解釋了該方法保持穩定的原因：如果沒有限制的編輯預算，技能會在每次修訂中偏離過遠；如果沒有被拒絕編輯的緩衝區，最佳化器會重複相同的失敗嘗試；移除週期末的緩慢更新導致SpreadsheetBench效能下降超過20個點，是整個實驗中最大的降幅。研究人員表示，只有將有限步長、驗證門控、負面反饋和長期鞏固結合起來，才能使技能訓練成為一個受控的最佳化過程。

最終技能保持緊湊：完成後的文件很少超過2000詞元，改進僅來自四個訓練週期中的一到四次接受的編輯。在OfficeQA上，最大的增益來自一次單一更改。學到的規則讀起來就像經驗豐富的從業者在使用基準一天後隨手記下的筆記。例如，對於電子表格，技能學會了先檢查工作表結構，然後直接將計算值寫入整個目標範圍，而不是使用Excel公式；對於ALFWorld，它記錄訪問過的位置，並在拾取目標物件之前避免前往目標區域；對於文件問題，它在接受答案前將問題錨定到正確的表格行。這些規則均不針對具體任務，而是描述程式。

研究人員承認該方法依賴於可靠的自動評分。對於開放式任務，驗證步驟需要人工或模型判斷。SkillOpt還特意最佳化單個文件而非技能庫，這在高度多樣化的領域可能成為瓶頸。

與當前大多數自我改進方法（最終會調整模型權重）不同，SkillOpt採用了一條極其簡潔的路徑。OpenClaw-RL等框架利用每次互動的後續訊號（如使用者響應或測試結果作為即時訓練來源。MetaClaw則從失敗任務中提取緊湊的行為規則並注入提示，僅在空閒階段透過強化學習更新權重。一個與SkillOpt的相似之處是：兩者中較弱的模型受益最大，因為它們缺乏規則或技能可以直接提供的程式性知識。其他團隊走得更遠：AutoTTS讓編碼智慧體自行搜尋更好的推理控制演算法，將人類角色從設計規則轉向設計環境；Meta的Hyperagents則最佳化自我改進的機制本身。相比之下，SkillOpt保持模型凍結，僅改變一個可讀的文本檔案。