思科AI推出FAPO:具備步驟級故障歸因與Claude Code編排的流水線感知提示優化
思科基礎AI開源了FAPO(全自動提示優化),這是一個由Claude Code驅動的系統,能夠自主優化多步驟LLM流水線,從基礎提示達到目標準確率。FAPO評估鏈、在步驟級別歸因故障,並在提示、參數和鏈結構級別提出變體,通過獨立審查器驗證每個變體。在思科的評估中,它在18個模型-基準比較中擊敗了GEPA。
正確編寫提示仍是交付可靠LLM應用中最困難的部分。措辭的微小變化可能導致準確率波動20個百分點。在少量樣本上有效的方法往往在規模擴大時失效。當多步驟流水線返回錯誤答案時,找到失敗步驟意味着手動檢查中間輸出。
思科AI推出了FAPO以解決這一瓶頸。FAPO代表全自動提示優化(Fully Automated Prompt Optimization),是一個由Claude Code驅動的系統,能夠從基線提示開始優化LLM流水線直至達到目標準確率。用户只需提供數據集和初始提示,FAPO就會進行評估、分類故障、提出變體、驗證並迭代。整個循環由Claude Code代理編排。該項目以Apache 2.0許可證開源,並支持Codex作為優化代理。
在思科報告的評估中,FAPO在18個模型-基準比較中擊敗了先進提示優化器GEPA,贏得了其中15個。在FAPO升級至流水線更改的兩個基準測試中,相對於GEPA的平均增益達到+33.8個百分點。
FAPO是一個多租户評估與優化框架。每個租户是一個獨立的優化項目,包含該任務的提示、數據集、鏈定義、評分器和配置。租户之間相互隔離,因此無關任務可以並行優化而不互相干擾。核心引擎名為hephaestus,是領域無關的,負責評估、鏈執行和評分。鏈是LangGraph狀態圖,用於處理每個測試用例。開箱即用,FAPO支持三個提供商:OpenAI、Baseten和SageMaker。
用户必須提供的數據集是成對的輸入和期望輸出,定義成功標準。FAPO將其拆分為驗證集和保留測試集。驗證集驅動迭代,測試集僅用於最終一次性評估。Claude可以根據任務描述搭建其餘部分:初始提示、鏈和評分器。
優化循環的工作方式如下:一旦所有組件就位,FAPO運行閉環直到達到目標準確率。每個週期包括六個階段:評估、歸因、提議、審查、比較和迭代。評估階段在數據集上運行鏈,收集每個案例的分數和步驟級輸出。歸因階段使用基於規則的啓發式加上LLM分析按根本原因分類失敗。提議階段針對主要失敗集羣生成變體。審查階段由獨立代理驗證提議的範圍合規性和數據泄漏。比較階段僅在變體優於先前最佳時接受,否則拒絕。迭代持續進行直至達到目標準確率或優化預算耗盡。
系統在三個升級級別上工作。提示編輯成本最低,首先嚐試。參數調整修改配置值如retrieval_k或temperature。結構更改改變鏈拓撲,例如添加自反思節點或切換到ReAct模式。FAPO在升級到下一級別之前窮盡當前級別。
步驟歸因將失敗分為四類:檢索失敗返回空或不相關內容;級聯失敗由早期步驟產生空輸出引起;格式失敗將正確答案隱藏在評分器無法解析的文本中;推理失敗發生在輸入正確但產生錯誤結論時。格式和推理問題可通過提示解決,檢索和級聯問題可通過結構解決。
防護措施防止過擬合:僅檢查訓練分割案例,驗證和測試僅暴露聚合分數;每個變體是一個新的不可變文件,從不原地編輯;每個提議在運行前由獨立審查者檢查。
基準測試案例:FAPO與GEPA。思科團隊將FAPO與GEPA(廣義進化提示架構)進行了對比,GEPA是一種最先進的提示優化方法,使用進化搜索和遺傳算子優化多步驟流水線的提示。兩者從相同的基線流水線和提示開始。FAPO可以在歸因發現瓶頸時升級到結構更改,而GEPA僅限於提示級別優化。
比較涵蓋六個基準測試和三個任務模型:GPT-4.1-mini、GPT-5.4-mini和Gemma 3-12B。Claude Opus 4.6同時作為FAPO的編排器和GEPA的反射器。以下是三個任務模型平均後的結果:
HoVer: 基線35.9, GEPA 48.5, FAPO 83.8, 增益 +35.3pp;IFBench: 35.7, 48.5, 80.7, +32.2pp;LiveBench-Math: 51.0, 52.6, 62.0, +9.4pp;HotpotQA: 50.9, 61.8, 68.3, +6.5pp;Papillon: 73.6, 90.7, 94.9, +4.2pp;AIME: 16.7, 16.0, 12.9, -3.1pp。
FAPO贏得了18個模型-基準比較中的15個,平均增益+14.1pp。在升級到流水線更改的HoVer和IFBench上,FAPO贏得了所有6個模型-基準對,平均增益+33.8pp。在其餘四個未進行結構更改的基準上,FAPO仍通過提示優化贏得了12箇中的9個。AIME是GEPA唯一領先的基準,但差距僅為3.1pp,小於隨機試驗的標準差。
FAPO針對多步驟LLM流水線,而非單提示。具體用例包括:多跳問答(在HotpotQA上達到68.3%測試準確率,GEPA為61.8%)、指令遵循(IFBench上格式約束失敗促使FAPO升級,達到80.7%測試準確率)、分類、ReAct代理(通過MCP工作流擴展優化工具調用)。
開始使用的最快方法是讓Claude Code創建租户文件。從倉庫描述任務,添加JSONL數據集。每行是一個測試用例,包含case_id、task_type、context、expected和metadata。評分器比較鏈輸出與期望答案,實現validate_case和score_case。驗證設置後,使用配置和成功標準調用優化代理。Claude Code生成範圍合同並自主迭代。每個提示變體、配置和分析都寫入磁盤,確保可審計。之後可通過本地只讀UI“FAPO Explorer”瀏覽構件。
優勢:流水線感知評分將失敗歸因於引起它的步驟;三級升級處理提示單獨無法修復的失敗;防過擬合防護措施;Apache 2.0開源,支持Claude Code和Codex。弱點:優化質量受限於用户提供的數據集質量和覆蓋範圍;項目較新,獨立生產記錄有限;默認循環依賴於智能編碼工具(Claude Code或Codex),而非獨立優化器。