AI News HubLIVE
站内改写

SPEAR:代码增强的智能提示优化

SPEAR(沙盒化主动回滚提示工程师)是一种自由形式的智能优化器,将代码即行动范式引入自动提示工程。它配备评估、Python、设置提示和完成四个工具,可自主决策如何使用。其独特之处在于Python沙盒,允许优化器编写和执行任意Python代码以进行结构性错误分析。两个防护栏确保单调改进:指标回归时自动回滚和可选防护指标下限。在三个工业LLM裁判套件(13个裁判任务)以及7个BBH任务和GSM8K上评估,SPEAR在所有工业任务的主要指标上获胜,并在BBH-7上平均准确率0.938。消融实验显示Python工具是最重要的杠杆。

文章情报

工程师进阶

要点

  • SPEAR将代码即行动范式应用于自动提示工程,实现自由形式的智能优化。
  • 通过Python沙盒进行结构性错误分析,如混淆矩阵和错误聚类。
  • 自动回滚和防护指标确保单调改进。
  • 在工业任务和学术基准上均显著优于现有方法。

为什么重要

这条新闻值得关注,因为SPEAR将代码即行动范式应用于自动提示工程,实现自由形式的智能优化。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

SPEAR(Sandboxed Prompt Engineer with Active Roll-back)是一种新颖的自动提示优化方法,它将代码即行动范式引入自动提示工程(APE)。传统的APE循环将优化器视为固定流水线,而SPEAR则提供了一个自由形式的智能优化器,配备四个核心工具:评估、Python、设置提示和完成。优化器可以自主决定如何以及何时使用这些工具。其中最独特的是Python沙盒工具:优化器可以在当前评估数据帧上编写并执行任意Python代码,执行由代理自身编写的结构性错误分析,包括混淆矩阵、错误聚类和分组指标。

为了确保长期优化的稳定性,SPEAR引入了两个防护栏:自动回滚(当指标出现回归时自动回退到之前的提示)和可选的防护指标下限。这些机制将长期智能体转变为单调改进的优化器。

研究者们在三个工业LLM作为裁判的套件(涵盖招聘面试、对话记忆和查询精炼系统的13个裁判任务)以及七个BBH任务和GSM8K上进行了评估。结果显示,SPEAR在所有工业任务的主要指标上均取得胜利:在工具选择任务上kappa达到0.857(对比基线0.359),在过滤器相关性任务上F1-macro达到0.815(对比0.763),在最难的信息提取维度上kappa达到0.254(对比0.218)。在BBH-7任务上,SPEAR的平均准确率达到0.938,远高于GEPA的0.628和TextGrad的0.484。

消融实验进一步揭示了Python工具的关键作用:在5类工具选择裁判任务中,移除Python工具导致kappa下降约0.79;在最难的信息提取维度上,下降约0.35。这种不可替代的贡献来自于类对混淆聚合,这是长上下文LLM无法从原始评估数据帧中可靠提取的。

SPEAR的提出为自动提示工程提供了一个新的方向,通过代码增强的智能体实现了更灵活、更强大的优化能力。相关代码和论文已在arXiv上发布。