2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

SPEAR：代码增强的智能提示优化

SPEAR（沙盒化主动回滚提示工程师）是一种自由形式的智能优化器，将代码即行动范式引入自动提示工程。它配备评估、Python、设置提示和完成四个工具，可自主决策如何使用。其独特之处在于Python沙盒，允许优化器编写和执行任意Python代码以进行结构性错误分析。两个防护栏确保单调改进：指标回归时自动回滚和可选防护指标下限。在三个工业LLM裁判套件（13个裁判任务）以及7个BBH任务和GSM8K上评估，SPEAR在所有工业任务的主要指标上获胜，并在BBH-7上平均准确率0.938。消融实验显示Python工具是最重要的杠杆。

来源arXiv Computational Linguistics作者: Mengyin Lu, Cong Feng, Huimin Han, Guangming Lu, Yu Sun, Xiaonan Ding, Shihui Long, Fengyi Li, Tanvi Motwani

SPEAR（Sandboxed Prompt Engineer with Active Roll-back）是一种新颖的自动提示优化方法，它将代码即行动范式引入自动提示工程（APE）。传统的APE循环将优化器视为固定流水线，而SPEAR则提供了一个自由形式的智能优化器，配备四个核心工具：评估、Python、设置提示和完成。优化器可以自主决定如何以及何时使用这些工具。其中最独特的是Python沙盒工具：优化器可以在当前评估数据帧上编写并执行任意Python代码，执行由代理自身编写的结构性错误分析，包括混淆矩阵、错误聚类和分组指标。

为了确保长期优化的稳定性，SPEAR引入了两个防护栏：自动回滚（当指标出现回归时自动回退到之前的提示）和可选的防护指标下限。这些机制将长期智能体转变为单调改进的优化器。

研究者们在三个工业LLM作为裁判的套件（涵盖招聘面试、对话记忆和查询精炼系统的13个裁判任务）以及七个BBH任务和GSM8K上进行了评估。结果显示，SPEAR在所有工业任务的主要指标上均取得胜利：在工具选择任务上kappa达到0.857（对比基线0.359），在过滤器相关性任务上F1-macro达到0.815（对比0.763），在最难的信息提取维度上kappa达到0.254（对比0.218）。在BBH-7任务上，SPEAR的平均准确率达到0.938，远高于GEPA的0.628和TextGrad的0.484。

消融实验进一步揭示了Python工具的关键作用：在5类工具选择裁判任务中，移除Python工具导致kappa下降约0.79；在最难的信息提取维度上，下降约0.35。这种不可替代的贡献来自于类对混淆聚合，这是长上下文LLM无法从原始评估数据帧中可靠提取的。

SPEAR的提出为自动提示工程提供了一个新的方向，通过代码增强的智能体实现了更灵活、更强大的优化能力。相关代码和论文已在arXiv上发布。