AI News HubLIVE
站内改写3 分钟阅读

思科AI推出FAPO:具备步骤级故障归因与Claude Code编排的流水线感知提示优化

思科基础AI开源了FAPO(全自动提示优化),这是一个由Claude Code驱动的系统,能够自主优化多步骤LLM流水线,从基础提示达到目标准确率。FAPO评估链、在步骤级别归因故障,并在提示、参数和链结构级别提出变体,通过独立审查器验证每个变体。在思科的评估中,它在18个模型-基准比较中击败了GEPA。

来源MarkTechPost作者: Asif Razzaq

正确编写提示仍是交付可靠LLM应用中最困难的部分。措辞的微小变化可能导致准确率波动20个百分点。在少量样本上有效的方法往往在规模扩大时失效。当多步骤流水线返回错误答案时,找到失败步骤意味着手动检查中间输出。

思科AI推出了FAPO以解决这一瓶颈。FAPO代表全自动提示优化(Fully Automated Prompt Optimization),是一个由Claude Code驱动的系统,能够从基线提示开始优化LLM流水线直至达到目标准确率。用户只需提供数据集和初始提示,FAPO就会进行评估、分类故障、提出变体、验证并迭代。整个循环由Claude Code代理编排。该项目以Apache 2.0许可证开源,并支持Codex作为优化代理。

在思科报告的评估中,FAPO在18个模型-基准比较中击败了先进提示优化器GEPA,赢得了其中15个。在FAPO升级至流水线更改的两个基准测试中,相对于GEPA的平均增益达到+33.8个百分点。

FAPO是一个多租户评估与优化框架。每个租户是一个独立的优化项目,包含该任务的提示、数据集、链定义、评分器和配置。租户之间相互隔离,因此无关任务可以并行优化而不互相干扰。核心引擎名为hephaestus,是领域无关的,负责评估、链执行和评分。链是LangGraph状态图,用于处理每个测试用例。开箱即用,FAPO支持三个提供商:OpenAI、Baseten和SageMaker。

用户必须提供的数据集是成对的输入和期望输出,定义成功标准。FAPO将其拆分为验证集和保留测试集。验证集驱动迭代,测试集仅用于最终一次性评估。Claude可以根据任务描述搭建其余部分:初始提示、链和评分器。

优化循环的工作方式如下:一旦所有组件就位,FAPO运行闭环直到达到目标准确率。每个周期包括六个阶段:评估、归因、提议、审查、比较和迭代。评估阶段在数据集上运行链,收集每个案例的分数和步骤级输出。归因阶段使用基于规则的启发式加上LLM分析按根本原因分类失败。提议阶段针对主要失败集群生成变体。审查阶段由独立代理验证提议的范围合规性和数据泄漏。比较阶段仅在变体优于先前最佳时接受,否则拒绝。迭代持续进行直至达到目标准确率或优化预算耗尽。

系统在三个升级级别上工作。提示编辑成本最低,首先尝试。参数调整修改配置值如retrieval_k或temperature。结构更改改变链拓扑,例如添加自反思节点或切换到ReAct模式。FAPO在升级到下一级别之前穷尽当前级别。

步骤归因将失败分为四类:检索失败返回空或不相关内容;级联失败由早期步骤产生空输出引起;格式失败将正确答案隐藏在评分器无法解析的文本中;推理失败发生在输入正确但产生错误结论时。格式和推理问题可通过提示解决,检索和级联问题可通过结构解决。

防护措施防止过拟合:仅检查训练分割案例,验证和测试仅暴露聚合分数;每个变体是一个新的不可变文件,从不原地编辑;每个提议在运行前由独立审查者检查。

基准测试案例:FAPO与GEPA。思科团队将FAPO与GEPA(广义进化提示架构)进行了对比,GEPA是一种最先进的提示优化方法,使用进化搜索和遗传算子优化多步骤流水线的提示。两者从相同的基线流水线和提示开始。FAPO可以在归因发现瓶颈时升级到结构更改,而GEPA仅限于提示级别优化。

比较涵盖六个基准测试和三个任务模型:GPT-4.1-mini、GPT-5.4-mini和Gemma 3-12B。Claude Opus 4.6同时作为FAPO的编排器和GEPA的反射器。以下是三个任务模型平均后的结果:

HoVer: 基线35.9, GEPA 48.5, FAPO 83.8, 增益 +35.3pp;IFBench: 35.7, 48.5, 80.7, +32.2pp;LiveBench-Math: 51.0, 52.6, 62.0, +9.4pp;HotpotQA: 50.9, 61.8, 68.3, +6.5pp;Papillon: 73.6, 90.7, 94.9, +4.2pp;AIME: 16.7, 16.0, 12.9, -3.1pp。

FAPO赢得了18个模型-基准比较中的15个,平均增益+14.1pp。在升级到流水线更改的HoVer和IFBench上,FAPO赢得了所有6个模型-基准对,平均增益+33.8pp。在其余四个未进行结构更改的基准上,FAPO仍通过提示优化赢得了12个中的9个。AIME是GEPA唯一领先的基准,但差距仅为3.1pp,小于随机试验的标准差。

FAPO针对多步骤LLM流水线,而非单提示。具体用例包括:多跳问答(在HotpotQA上达到68.3%测试准确率,GEPA为61.8%)、指令遵循(IFBench上格式约束失败促使FAPO升级,达到80.7%测试准确率)、分类、ReAct代理(通过MCP工作流扩展优化工具调用)。

开始使用的最快方法是让Claude Code创建租户文件。从仓库描述任务,添加JSONL数据集。每行是一个测试用例,包含case_id、task_type、context、expected和metadata。评分器比较链输出与期望答案,实现validate_case和score_case。验证设置后,使用配置和成功标准调用优化代理。Claude Code生成范围合同并自主迭代。每个提示变体、配置和分析都写入磁盘,确保可审计。之后可通过本地只读UI“FAPO Explorer”浏览构件。

优势:流水线感知评分将失败归因于引起它的步骤;三级升级处理提示单独无法修复的失败;防过拟合防护措施;Apache 2.0开源,支持Claude Code和Codex。弱点:优化质量受限于用户提供的数据集质量和覆盖范围;项目较新,独立生产记录有限;默认循环依赖于智能编码工具(Claude Code或Codex),而非独立优化器。