2026-06-10站内改写1 分鐘閱讀更新: 2026-06-12

Microsoft SkillOpt的編碼實現：工具化提示最佳化、技能演化分析與基線對比

本教程完整實現了Microsoft SkillOpt的工作流程，包括環境搭建、基線評估、最佳化迴圈（rollout、反思、聚合、選擇、更新、驗證門控）以及訓練歷史視覺化與最終技能比較，最終獲得可部署的最佳化技能檔案並展示了準確率提升。

來源MarkTechPost作者: Sana Hassan

本文詳細實現了Microsoft SkillOpt的完整工作流程。首先，我們設定SkillOpt倉庫，連線OpenAI相容的模型訪問，配置最佳化器（gpt-4o）和目標模型（gpt-4o-mini），並執行SearchQA最佳化流水線，透過限制樣本數量（24個）來控制成本。接著，我們評估初始種子技能作為基線，使用eval_only指令碼在未見過的驗證集上獲取硬匹配和軟匹配分數。

然後，我們執行真正的最佳化迴圈，SkillOpt透過rollout（生成候選技能）、反思（分析錯誤）、聚合（合併修改）、選擇（挑選最佳）、更新（應用改進）和驗證門控（基於驗證準確率決定是否接受）來迭代改進技能。我們配置訓練引數：2個epoch、批次大小8、小批次4、學習率4（餘弦排程）、慢更新和元技能等。訓練過程中，我們讀取history.json，使用matplotlib繪製準確率變化、編輯預算行為和累積token使用量的儀表盤。

接下來，我們檢查技能演化：比較第一個技能快照與最終的最佳技能檔案，檢視文本差異；檢查是否存在受保護的慢更新塊；檢視一個聚合補丁和一個反思分析的內容；並列出慢更新和元技能工件。最後，我們在驗證集上評估最佳技能，與基線對比，得到硬匹配準確率的提升，最終獲得可部署的best_skill.md檔案。

總之，我們構建了完整的SkillOpt實驗，從基線測量到技能最佳化，再到訓練過程視覺化和最終比較，展示了最佳化帶來的效能提升，並提供了可直接用於實際應用的最佳技能檔案。