AI News HubLIVE
站内改写2 分鐘閱讀

精益推理:將精益製造原則應用於人工智能

本文將精益製造原則應用於AI推理,識別了LLM推理中的七大浪費,並提出了即時上下文、標準化工作、節拍時間和提示緩存等核心原則,通過一個倉庫分析代理的案例展示了13倍成本降低和3.3倍延遲改進。

來源Hacker News AI作者: robmay

精益製造原則在20世紀80年代徹底改變了物理生產,現在,這些原則被系統地應用於AI推理——這是一個被稱為“精益推理”的新興領域。其核心理念是:就像工廠車間需要消除浪費一樣,基於LLM的代理架構也需要識別並消除推理過程中的低效。

文章首先描繪了一個熟悉的場景:一個簡單的路由決策——用户查詢需要數據庫查找還是計算器?——卻觸發了一個帶有12,000個token上下文窗口的GPT-4o調用,等待4秒,返回格式錯誤的JSON,重試兩次,最終花費0.40美元解決了一個本可以用正則表達式處理的問題。當這種情況每天發生10,000次時,就形成了一個“推理金錢坑”。

作者借鑑大野耐一的七種浪費框架,識別了LLM推理中的七種浪費:

  1. 過度生產:默認使用前沿模型處理不需要其能力的任務。例如,路由支持工單可以用8B分類模型,而結構提取可以用微調的3B模型。成本差異巨大:Claude Sonnet是Haiku的3倍,GPT-4o是GPT-4o-mini的10倍。
  2. 庫存:RAG膨脹——將前20個塊全部塞入上下文窗口“以防萬一”。這增加了輸入token成本並降低了檢索精度。通過重排序和截斷來控制庫存。
  3. 等待:本可並行的工具調用卻順序執行。例如,三個異步調用本可同時進行,卻因為順序阻塞導致890ms等待。
  4. 缺陷:輸出格式錯誤導致重試循環。結構化輸出(如OpenAI的response_format)從根本上消除這類缺陷。
  5. 過度處理:不必要的思維鏈。對於路由分類器等非推理任務,移除CoT可減少40-60%的輸出token而無質量損失。

精益推理的核心原則包括:

  • 即時上下文:按需拉取上下文,而非預先加載“上帝上下文”。實踐中包括語義緩存、重排序後注入、步驟級作用域上下文。
  • 標準化工作:用確定性代碼編碼狀態機轉換、路由規則等,而非讓模型推理所有。LangGraph等工具可以顯式表示控制流。
  • 節拍時間:為每個工作流定義明確的延遲預算。例如,2秒端到端SLA,6個步驟則每步約333ms,這迫使架構決策。
  • 提示緩存作為看板:系統提示、工具定義等靜態內容可緩存,在API層面節省90%成本。

文章通過一個倉庫分析代理展示了前後對比:

  • 之前:單個ReAct循環,每步調用GPT-4o,全部倉庫上下文,順序文件讀取,未驗證輸出。平均14秒,約85,000 token,約1.20美元/次。
  • 之後:小型路由模型(8B微調)分類任務類型,提示緩存,並行文件讀取,結構化輸出,嚴格步驟預算。平均4.2秒,約18,000 token,約0.09美元/次。成本降低13倍,延遲改善3.3倍,輸出質量相同。

結論強調:AI工程的下一個前沿不是更大的上下文窗口或更強的基座模型,而是紀律性地消除浪費。每個不必要的模型調用、膨脹的RAG上下文、順序阻塞操作和輸出錯誤都是工程失敗,而非模型失敗。精益推理是一套具體的架構決策,可以在當前迭代中實施:審計每一步的token消耗,映射順序調用,添加結構化輸出,調整模型大小,緩存靜態提示。