AI News HubLIVE
站内改写

SPEAR:程式碼增強的智慧提示最佳化

SPEAR(沙盒化主動回滾提示工程師)是一種自由形式的智慧最佳化器,將程式碼即行動正規化引入自動提示工程。它配備評估、Python、設定提示和完成四個工具,可自主決策如何使用。其獨特之處在於Python沙盒,允許最佳化器編寫和執行任意Python程式碼以進行結構性錯誤分析。兩個防護欄確保單調改進:指標迴歸時自動回滾和可選防護指標下限。在三個工業LLM裁判套件(13個裁判任務)以及7個BBH任務和GSM8K上評估,SPEAR在所有工業任務的主要指標上獲勝,並在BBH-7上平均準確率0.938。消融實驗顯示Python工具是最重要的槓桿。

文章情報

工程師進階

要點

  • SPEAR將程式碼即行動正規化應用於自動提示工程,實現自由形式的智慧最佳化。
  • 透過Python沙盒進行結構性錯誤分析,如混淆矩陣和錯誤聚類。
  • 自動回滾和防護指標確保單調改進。
  • 在工業任務和學術基準上均顯著優於現有方法。

為什麼重要

這條新聞值得關注,因為SPEAR將程式碼即行動正規化應用於自動提示工程,實現自由形式的智慧最佳化。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

SPEAR(Sandboxed Prompt Engineer with Active Roll-back)是一種新穎的自動提示最佳化方法,它將程式碼即行動正規化引入自動提示工程(APE)。傳統的APE迴圈將最佳化器視為固定流水線,而SPEAR則提供了一個自由形式的智慧最佳化器,配備四個核心工具:評估、Python、設定提示和完成。最佳化器可以自主決定如何以及何時使用這些工具。其中最獨特的是Python沙盒工具:最佳化器可以在當前評估資料幀上編寫並執行任意Python程式碼,執行由代理自身編寫的結構性錯誤分析,包括混淆矩陣、錯誤聚類和分組指標。

為了確保長期最佳化的穩定性,SPEAR引入了兩個防護欄:自動回滾(當指標出現迴歸時自動回退到之前的提示)和可選的防護指標下限。這些機制將長期智慧體轉變為單調改進的最佳化器。

研究者們在三個工業LLM作為裁判的套件(涵蓋招聘面試、對話記憶和查詢精煉系統的13個裁判任務)以及七個BBH任務和GSM8K上進行了評估。結果顯示,SPEAR在所有工業任務的主要指標上均取得勝利:在工具選擇任務上kappa達到0.857(對比基線0.359),在過濾器相關性任務上F1-macro達到0.815(對比0.763),在最難的資訊提取維度上kappa達到0.254(對比0.218)。在BBH-7任務上,SPEAR的平均準確率達到0.938,遠高於GEPA的0.628和TextGrad的0.484。

消融實驗進一步揭示了Python工具的關鍵作用:在5類工具選擇裁判任務中,移除Python工具導致kappa下降約0.79;在最難的資訊提取維度上,下降約0.35。這種不可替代的貢獻來自於類對混淆聚合,這是長上下文LLM無法從原始評估資料幀中可靠提取的。

SPEAR的提出為自動提示工程提供了一個新的方向,透過程式碼增強的智慧體實現了更靈活、更強大的最佳化能力。相關程式碼和論文已在arXiv上釋出。