2026-06-04 01:41 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

精益推理：將精益製造原則應用於人工智能

本文將精益製造原則應用於AI推理，識別了LLM推理中的七大浪費，並提出了即時上下文、標準化工作、節拍時間和提示緩存等核心原則，通過一個倉庫分析代理的案例展示了13倍成本降低和3.3倍延遲改進。

精益製造原則在20世紀80年代徹底改變了物理生產，現在，這些原則被系統地應用於AI推理——這是一個被稱為“精益推理”的新興領域。其核心理念是：就像工廠車間需要消除浪費一樣，基於LLM的代理架構也需要識別並消除推理過程中的低效。

文章首先描繪了一個熟悉的場景：一個簡單的路由決策——用户查詢需要數據庫查找還是計算器？——卻觸發了一個帶有12,000個token上下文窗口的GPT-4o調用，等待4秒，返回格式錯誤的JSON，重試兩次，最終花費0.40美元解決了一個本可以用正則表達式處理的問題。當這種情況每天發生10,000次時，就形成了一個“推理金錢坑”。

作者借鑑大野耐一的七種浪費框架，識別了LLM推理中的七種浪費：

過度生產：默認使用前沿模型處理不需要其能力的任務。例如，路由支持工單可以用8B分類模型，而結構提取可以用微調的3B模型。成本差異巨大：Claude Sonnet是Haiku的3倍，GPT-4o是GPT-4o-mini的10倍。
庫存：RAG膨脹——將前20個塊全部塞入上下文窗口“以防萬一”。這增加了輸入token成本並降低了檢索精度。通過重排序和截斷來控制庫存。
等待：本可並行的工具調用卻順序執行。例如，三個異步調用本可同時進行，卻因為順序阻塞導致890ms等待。
缺陷：輸出格式錯誤導致重試循環。結構化輸出（如OpenAI的response_format）從根本上消除這類缺陷。
過度處理：不必要的思維鏈。對於路由分類器等非推理任務，移除CoT可減少40-60%的輸出token而無質量損失。

精益推理的核心原則包括：

即時上下文：按需拉取上下文，而非預先加載“上帝上下文”。實踐中包括語義緩存、重排序後注入、步驟級作用域上下文。
標準化工作：用確定性代碼編碼狀態機轉換、路由規則等，而非讓模型推理所有。LangGraph等工具可以顯式表示控制流。
節拍時間：為每個工作流定義明確的延遲預算。例如，2秒端到端SLA，6個步驟則每步約333ms，這迫使架構決策。
提示緩存作為看板：系統提示、工具定義等靜態內容可緩存，在API層面節省90%成本。

文章通過一個倉庫分析代理展示了前後對比：

之前：單個ReAct循環，每步調用GPT-4o，全部倉庫上下文，順序文件讀取，未驗證輸出。平均14秒，約85,000 token，約1.20美元/次。
之後：小型路由模型（8B微調）分類任務類型，提示緩存，並行文件讀取，結構化輸出，嚴格步驟預算。平均4.2秒，約18,000 token，約0.09美元/次。成本降低13倍，延遲改善3.3倍，輸出質量相同。

結論強調：AI工程的下一個前沿不是更大的上下文窗口或更強的基座模型，而是紀律性地消除浪費。每個不必要的模型調用、膨脹的RAG上下文、順序阻塞操作和輸出錯誤都是工程失敗，而非模型失敗。精益推理是一套具體的架構決策，可以在當前迭代中實施：審計每一步的token消耗，映射順序調用，添加結構化輸出，調整模型大小，緩存靜態提示。