AI News HubLIVE
站内改写

SPEAR:代碼增強的智能提示優化

SPEAR(沙盒化主動回滾提示工程師)是一種自由形式的智能優化器,將代碼即行動範式引入自動提示工程。它配備評估、Python、設置提示和完成四個工具,可自主決策如何使用。其獨特之處在於Python沙盒,允許優化器編寫和執行任意Python代碼以進行結構性錯誤分析。兩個防護欄確保單調改進:指標迴歸時自動回滾和可選防護指標下限。在三個工業LLM裁判套件(13個裁判任務)以及7個BBH任務和GSM8K上評估,SPEAR在所有工業任務的主要指標上獲勝,並在BBH-7上平均準確率0.938。消融實驗顯示Python工具是最重要的槓桿。

文章情報

工程師進階

要點

  • SPEAR將代碼即行動範式應用於自動提示工程,實現自由形式的智能優化。
  • 通過Python沙盒進行結構性錯誤分析,如混淆矩陣和錯誤聚類。
  • 自動回滾和防護指標確保單調改進。
  • 在工業任務和學術基準上均顯著優於現有方法。

為甚麼重要

這條新聞值得關注,因為SPEAR將代碼即行動範式應用於自動提示工程,實現自由形式的智能優化。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

SPEAR(Sandboxed Prompt Engineer with Active Roll-back)是一種新穎的自動提示優化方法,它將代碼即行動範式引入自動提示工程(APE)。傳統的APE循環將優化器視為固定流水線,而SPEAR則提供了一個自由形式的智能優化器,配備四個核心工具:評估、Python、設置提示和完成。優化器可以自主決定如何以及何時使用這些工具。其中最獨特的是Python沙盒工具:優化器可以在當前評估數據幀上編寫並執行任意Python代碼,執行由代理自身編寫的結構性錯誤分析,包括混淆矩陣、錯誤聚類和分組指標。

為了確保長期優化的穩定性,SPEAR引入了兩個防護欄:自動回滾(當指標出現迴歸時自動回退到之前的提示)和可選的防護指標下限。這些機制將長期智能體轉變為單調改進的優化器。

研究者們在三個工業LLM作為裁判的套件(涵蓋招聘面試、對話記憶和查詢精煉系統的13個裁判任務)以及七個BBH任務和GSM8K上進行了評估。結果顯示,SPEAR在所有工業任務的主要指標上均取得勝利:在工具選擇任務上kappa達到0.857(對比基線0.359),在過濾器相關性任務上F1-macro達到0.815(對比0.763),在最難的信息提取維度上kappa達到0.254(對比0.218)。在BBH-7任務上,SPEAR的平均準確率達到0.938,遠高於GEPA的0.628和TextGrad的0.484。

消融實驗進一步揭示了Python工具的關鍵作用:在5類工具選擇裁判任務中,移除Python工具導致kappa下降約0.79;在最難的信息提取維度上,下降約0.35。這種不可替代的貢獻來自於類對混淆聚合,這是長上下文LLM無法從原始評估數據幀中可靠提取的。

SPEAR的提出為自動提示工程提供了一個新的方向,通過代碼增強的智能體實現了更靈活、更強大的優化能力。相關代碼和論文已在arXiv上發佈。