2026-06-21 07:04 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

思科AI推出FAPO：具備步驟級故障歸因與Claude Code編排的流水線感知提示優化

思科基礎AI開源了FAPO（全自動提示優化），這是一個由Claude Code驅動的系統，能夠自主優化多步驟LLM流水線，從基礎提示達到目標準確率。FAPO評估鏈、在步驟級別歸因故障，並在提示、參數和鏈結構級別提出變體，通過獨立審查器驗證每個變體。在思科的評估中，它在18個模型-基準比較中擊敗了GEPA。

來源MarkTechPost作者: Asif Razzaq

正確編寫提示仍是交付可靠LLM應用中最困難的部分。措辭的微小變化可能導致準確率波動20個百分點。在少量樣本上有效的方法往往在規模擴大時失效。當多步驟流水線返回錯誤答案時，找到失敗步驟意味着手動檢查中間輸出。

思科AI推出了FAPO以解決這一瓶頸。FAPO代表全自動提示優化（Fully Automated Prompt Optimization），是一個由Claude Code驅動的系統，能夠從基線提示開始優化LLM流水線直至達到目標準確率。用户只需提供數據集和初始提示，FAPO就會進行評估、分類故障、提出變體、驗證並迭代。整個循環由Claude Code代理編排。該項目以Apache 2.0許可證開源，並支持Codex作為優化代理。

在思科報告的評估中，FAPO在18個模型-基準比較中擊敗了先進提示優化器GEPA，贏得了其中15個。在FAPO升級至流水線更改的兩個基準測試中，相對於GEPA的平均增益達到+33.8個百分點。

FAPO是一個多租户評估與優化框架。每個租户是一個獨立的優化項目，包含該任務的提示、數據集、鏈定義、評分器和配置。租户之間相互隔離，因此無關任務可以並行優化而不互相干擾。核心引擎名為hephaestus，是領域無關的，負責評估、鏈執行和評分。鏈是LangGraph狀態圖，用於處理每個測試用例。開箱即用，FAPO支持三個提供商：OpenAI、Baseten和SageMaker。

用户必須提供的數據集是成對的輸入和期望輸出，定義成功標準。FAPO將其拆分為驗證集和保留測試集。驗證集驅動迭代，測試集僅用於最終一次性評估。Claude可以根據任務描述搭建其餘部分：初始提示、鏈和評分器。

優化循環的工作方式如下：一旦所有組件就位，FAPO運行閉環直到達到目標準確率。每個週期包括六個階段：評估、歸因、提議、審查、比較和迭代。評估階段在數據集上運行鏈，收集每個案例的分數和步驟級輸出。歸因階段使用基於規則的啓發式加上LLM分析按根本原因分類失敗。提議階段針對主要失敗集羣生成變體。審查階段由獨立代理驗證提議的範圍合規性和數據泄漏。比較階段僅在變體優於先前最佳時接受，否則拒絕。迭代持續進行直至達到目標準確率或優化預算耗盡。

系統在三個升級級別上工作。提示編輯成本最低，首先嚐試。參數調整修改配置值如retrieval_k或temperature。結構更改改變鏈拓撲，例如添加自反思節點或切換到ReAct模式。FAPO在升級到下一級別之前窮盡當前級別。

步驟歸因將失敗分為四類：檢索失敗返回空或不相關內容；級聯失敗由早期步驟產生空輸出引起；格式失敗將正確答案隱藏在評分器無法解析的文本中；推理失敗發生在輸入正確但產生錯誤結論時。格式和推理問題可通過提示解決，檢索和級聯問題可通過結構解決。

防護措施防止過擬合：僅檢查訓練分割案例，驗證和測試僅暴露聚合分數；每個變體是一個新的不可變文件，從不原地編輯；每個提議在運行前由獨立審查者檢查。

基準測試案例：FAPO與GEPA。思科團隊將FAPO與GEPA（廣義進化提示架構）進行了對比，GEPA是一種最先進的提示優化方法，使用進化搜索和遺傳算子優化多步驟流水線的提示。兩者從相同的基線流水線和提示開始。FAPO可以在歸因發現瓶頸時升級到結構更改，而GEPA僅限於提示級別優化。

比較涵蓋六個基準測試和三個任務模型：GPT-4.1-mini、GPT-5.4-mini和Gemma 3-12B。Claude Opus 4.6同時作為FAPO的編排器和GEPA的反射器。以下是三個任務模型平均後的結果：

HoVer: 基線35.9, GEPA 48.5, FAPO 83.8, 增益 +35.3pp；IFBench: 35.7, 48.5, 80.7, +32.2pp；LiveBench-Math: 51.0, 52.6, 62.0, +9.4pp；HotpotQA: 50.9, 61.8, 68.3, +6.5pp；Papillon: 73.6, 90.7, 94.9, +4.2pp；AIME: 16.7, 16.0, 12.9, -3.1pp。

FAPO贏得了18個模型-基準比較中的15個，平均增益+14.1pp。在升級到流水線更改的HoVer和IFBench上，FAPO贏得了所有6個模型-基準對，平均增益+33.8pp。在其餘四個未進行結構更改的基準上，FAPO仍通過提示優化贏得了12箇中的9個。AIME是GEPA唯一領先的基準，但差距僅為3.1pp，小於隨機試驗的標準差。

FAPO針對多步驟LLM流水線，而非單提示。具體用例包括：多跳問答（在HotpotQA上達到68.3%測試準確率，GEPA為61.8%）、指令遵循（IFBench上格式約束失敗促使FAPO升級，達到80.7%測試準確率）、分類、ReAct代理（通過MCP工作流擴展優化工具調用）。

開始使用的最快方法是讓Claude Code創建租户文件。從倉庫描述任務，添加JSONL數據集。每行是一個測試用例，包含case_id、task_type、context、expected和metadata。評分器比較鏈輸出與期望答案，實現validate_case和score_case。驗證設置後，使用配置和成功標準調用優化代理。Claude Code生成範圍合同並自主迭代。每個提示變體、配置和分析都寫入磁盤，確保可審計。之後可通過本地只讀UI“FAPO Explorer”瀏覽構件。

優勢：流水線感知評分將失敗歸因於引起它的步驟；三級升級處理提示單獨無法修復的失敗；防過擬合防護措施；Apache 2.0開源，支持Claude Code和Codex。弱點：優化質量受限於用户提供的數據集質量和覆蓋範圍；項目較新，獨立生產記錄有限；默認循環依賴於智能編碼工具（Claude Code或Codex），而非獨立優化器。