2026-06-21 07:04 UTC+8站内改写3 分钟阅读更新: 2026-06-22 07:31 UTC+8

思科AI推出FAPO：具备步骤级故障归因与Claude Code编排的流水线感知提示优化

思科基础AI开源了FAPO（全自动提示优化），这是一个由Claude Code驱动的系统，能够自主优化多步骤LLM流水线，从基础提示达到目标准确率。FAPO评估链、在步骤级别归因故障，并在提示、参数和链结构级别提出变体，通过独立审查器验证每个变体。在思科的评估中，它在18个模型-基准比较中击败了GEPA。

来源MarkTechPost作者: Asif Razzaq

正确编写提示仍是交付可靠LLM应用中最困难的部分。措辞的微小变化可能导致准确率波动20个百分点。在少量样本上有效的方法往往在规模扩大时失效。当多步骤流水线返回错误答案时，找到失败步骤意味着手动检查中间输出。

思科AI推出了FAPO以解决这一瓶颈。FAPO代表全自动提示优化（Fully Automated Prompt Optimization），是一个由Claude Code驱动的系统，能够从基线提示开始优化LLM流水线直至达到目标准确率。用户只需提供数据集和初始提示，FAPO就会进行评估、分类故障、提出变体、验证并迭代。整个循环由Claude Code代理编排。该项目以Apache 2.0许可证开源，并支持Codex作为优化代理。

在思科报告的评估中，FAPO在18个模型-基准比较中击败了先进提示优化器GEPA，赢得了其中15个。在FAPO升级至流水线更改的两个基准测试中，相对于GEPA的平均增益达到+33.8个百分点。

FAPO是一个多租户评估与优化框架。每个租户是一个独立的优化项目，包含该任务的提示、数据集、链定义、评分器和配置。租户之间相互隔离，因此无关任务可以并行优化而不互相干扰。核心引擎名为hephaestus，是领域无关的，负责评估、链执行和评分。链是LangGraph状态图，用于处理每个测试用例。开箱即用，FAPO支持三个提供商：OpenAI、Baseten和SageMaker。

用户必须提供的数据集是成对的输入和期望输出，定义成功标准。FAPO将其拆分为验证集和保留测试集。验证集驱动迭代，测试集仅用于最终一次性评估。Claude可以根据任务描述搭建其余部分：初始提示、链和评分器。

优化循环的工作方式如下：一旦所有组件就位，FAPO运行闭环直到达到目标准确率。每个周期包括六个阶段：评估、归因、提议、审查、比较和迭代。评估阶段在数据集上运行链，收集每个案例的分数和步骤级输出。归因阶段使用基于规则的启发式加上LLM分析按根本原因分类失败。提议阶段针对主要失败集群生成变体。审查阶段由独立代理验证提议的范围合规性和数据泄漏。比较阶段仅在变体优于先前最佳时接受，否则拒绝。迭代持续进行直至达到目标准确率或优化预算耗尽。

系统在三个升级级别上工作。提示编辑成本最低，首先尝试。参数调整修改配置值如retrieval_k或temperature。结构更改改变链拓扑，例如添加自反思节点或切换到ReAct模式。FAPO在升级到下一级别之前穷尽当前级别。

步骤归因将失败分为四类：检索失败返回空或不相关内容；级联失败由早期步骤产生空输出引起；格式失败将正确答案隐藏在评分器无法解析的文本中；推理失败发生在输入正确但产生错误结论时。格式和推理问题可通过提示解决，检索和级联问题可通过结构解决。

防护措施防止过拟合：仅检查训练分割案例，验证和测试仅暴露聚合分数；每个变体是一个新的不可变文件，从不原地编辑；每个提议在运行前由独立审查者检查。

基准测试案例：FAPO与GEPA。思科团队将FAPO与GEPA（广义进化提示架构）进行了对比，GEPA是一种最先进的提示优化方法，使用进化搜索和遗传算子优化多步骤流水线的提示。两者从相同的基线流水线和提示开始。FAPO可以在归因发现瓶颈时升级到结构更改，而GEPA仅限于提示级别优化。

比较涵盖六个基准测试和三个任务模型：GPT-4.1-mini、GPT-5.4-mini和Gemma 3-12B。Claude Opus 4.6同时作为FAPO的编排器和GEPA的反射器。以下是三个任务模型平均后的结果：

HoVer: 基线35.9, GEPA 48.5, FAPO 83.8, 增益 +35.3pp；IFBench: 35.7, 48.5, 80.7, +32.2pp；LiveBench-Math: 51.0, 52.6, 62.0, +9.4pp；HotpotQA: 50.9, 61.8, 68.3, +6.5pp；Papillon: 73.6, 90.7, 94.9, +4.2pp；AIME: 16.7, 16.0, 12.9, -3.1pp。

FAPO赢得了18个模型-基准比较中的15个，平均增益+14.1pp。在升级到流水线更改的HoVer和IFBench上，FAPO赢得了所有6个模型-基准对，平均增益+33.8pp。在其余四个未进行结构更改的基准上，FAPO仍通过提示优化赢得了12个中的9个。AIME是GEPA唯一领先的基准，但差距仅为3.1pp，小于随机试验的标准差。

FAPO针对多步骤LLM流水线，而非单提示。具体用例包括：多跳问答（在HotpotQA上达到68.3%测试准确率，GEPA为61.8%）、指令遵循（IFBench上格式约束失败促使FAPO升级，达到80.7%测试准确率）、分类、ReAct代理（通过MCP工作流扩展优化工具调用）。

开始使用的最快方法是让Claude Code创建租户文件。从仓库描述任务，添加JSONL数据集。每行是一个测试用例，包含case_id、task_type、context、expected和metadata。评分器比较链输出与期望答案，实现validate_case和score_case。验证设置后，使用配置和成功标准调用优化代理。Claude Code生成范围合同并自主迭代。每个提示变体、配置和分析都写入磁盘，确保可审计。之后可通过本地只读UI“FAPO Explorer”浏览构件。

优势：流水线感知评分将失败归因于引起它的步骤；三级升级处理提示单独无法修复的失败；防过拟合防护措施；Apache 2.0开源，支持Claude Code和Codex。弱点：优化质量受限于用户提供的数据集质量和覆盖范围；项目较新，独立生产记录有限；默认循环依赖于智能编码工具（Claude Code或Codex），而非独立优化器。