2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

SPEAR：程式碼增強的智慧提示最佳化

SPEAR（沙盒化主動回滾提示工程師）是一種自由形式的智慧最佳化器，將程式碼即行動正規化引入自動提示工程。它配備評估、Python、設定提示和完成四個工具，可自主決策如何使用。其獨特之處在於Python沙盒，允許最佳化器編寫和執行任意Python程式碼以進行結構性錯誤分析。兩個防護欄確保單調改進：指標迴歸時自動回滾和可選防護指標下限。在三個工業LLM裁判套件（13個裁判任務）以及7個BBH任務和GSM8K上評估，SPEAR在所有工業任務的主要指標上獲勝，並在BBH-7上平均準確率0.938。消融實驗顯示Python工具是最重要的槓桿。

來源arXiv Computational Linguistics作者: Mengyin Lu, Cong Feng, Huimin Han, Guangming Lu, Yu Sun, Xiaonan Ding, Shihui Long, Fengyi Li, Tanvi Motwani

SPEAR（Sandboxed Prompt Engineer with Active Roll-back）是一種新穎的自動提示最佳化方法，它將程式碼即行動正規化引入自動提示工程（APE）。傳統的APE迴圈將最佳化器視為固定流水線，而SPEAR則提供了一個自由形式的智慧最佳化器，配備四個核心工具：評估、Python、設定提示和完成。最佳化器可以自主決定如何以及何時使用這些工具。其中最獨特的是Python沙盒工具：最佳化器可以在當前評估資料幀上編寫並執行任意Python程式碼，執行由代理自身編寫的結構性錯誤分析，包括混淆矩陣、錯誤聚類和分組指標。

為了確保長期最佳化的穩定性，SPEAR引入了兩個防護欄：自動回滾（當指標出現迴歸時自動回退到之前的提示）和可選的防護指標下限。這些機制將長期智慧體轉變為單調改進的最佳化器。

研究者們在三個工業LLM作為裁判的套件（涵蓋招聘面試、對話記憶和查詢精煉系統的13個裁判任務）以及七個BBH任務和GSM8K上進行了評估。結果顯示，SPEAR在所有工業任務的主要指標上均取得勝利：在工具選擇任務上kappa達到0.857（對比基線0.359），在過濾器相關性任務上F1-macro達到0.815（對比0.763），在最難的資訊提取維度上kappa達到0.254（對比0.218）。在BBH-7任務上，SPEAR的平均準確率達到0.938，遠高於GEPA的0.628和TextGrad的0.484。

消融實驗進一步揭示了Python工具的關鍵作用：在5類工具選擇裁判任務中，移除Python工具導致kappa下降約0.79；在最難的資訊提取維度上，下降約0.35。這種不可替代的貢獻來自於類對混淆聚合，這是長上下文LLM無法從原始評估資料幀中可靠提取的。

SPEAR的提出為自動提示工程提供了一個新的方向，透過程式碼增強的智慧體實現了更靈活、更強大的最佳化能力。相關程式碼和論文已在arXiv上釋出。