2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

SPEAR：代碼增強的智能提示優化

SPEAR（沙盒化主動回滾提示工程師）是一種自由形式的智能優化器，將代碼即行動範式引入自動提示工程。它配備評估、Python、設置提示和完成四個工具，可自主決策如何使用。其獨特之處在於Python沙盒，允許優化器編寫和執行任意Python代碼以進行結構性錯誤分析。兩個防護欄確保單調改進：指標迴歸時自動回滾和可選防護指標下限。在三個工業LLM裁判套件（13個裁判任務）以及7個BBH任務和GSM8K上評估，SPEAR在所有工業任務的主要指標上獲勝，並在BBH-7上平均準確率0.938。消融實驗顯示Python工具是最重要的槓桿。

來源arXiv Computational Linguistics作者: Mengyin Lu, Cong Feng, Huimin Han, Guangming Lu, Yu Sun, Xiaonan Ding, Shihui Long, Fengyi Li, Tanvi Motwani

SPEAR（Sandboxed Prompt Engineer with Active Roll-back）是一種新穎的自動提示優化方法，它將代碼即行動範式引入自動提示工程（APE）。傳統的APE循環將優化器視為固定流水線，而SPEAR則提供了一個自由形式的智能優化器，配備四個核心工具：評估、Python、設置提示和完成。優化器可以自主決定如何以及何時使用這些工具。其中最獨特的是Python沙盒工具：優化器可以在當前評估數據幀上編寫並執行任意Python代碼，執行由代理自身編寫的結構性錯誤分析，包括混淆矩陣、錯誤聚類和分組指標。

為了確保長期優化的穩定性，SPEAR引入了兩個防護欄：自動回滾（當指標出現迴歸時自動回退到之前的提示）和可選的防護指標下限。這些機制將長期智能體轉變為單調改進的優化器。

研究者們在三個工業LLM作為裁判的套件（涵蓋招聘面試、對話記憶和查詢精煉系統的13個裁判任務）以及七個BBH任務和GSM8K上進行了評估。結果顯示，SPEAR在所有工業任務的主要指標上均取得勝利：在工具選擇任務上kappa達到0.857（對比基線0.359），在過濾器相關性任務上F1-macro達到0.815（對比0.763），在最難的信息提取維度上kappa達到0.254（對比0.218）。在BBH-7任務上，SPEAR的平均準確率達到0.938，遠高於GEPA的0.628和TextGrad的0.484。

消融實驗進一步揭示了Python工具的關鍵作用：在5類工具選擇裁判任務中，移除Python工具導致kappa下降約0.79；在最難的信息提取維度上，下降約0.35。這種不可替代的貢獻來自於類對混淆聚合，這是長上下文LLM無法從原始評估數據幀中可靠提取的。

SPEAR的提出為自動提示工程提供了一個新的方向，通過代碼增強的智能體實現了更靈活、更強大的優化能力。相關代碼和論文已在arXiv上發佈。