精益推理:将精益制造原则应用于人工智能
本文将精益制造原则应用于AI推理,识别了LLM推理中的七大浪费,并提出了即时上下文、标准化工作、节拍时间和提示缓存等核心原则,通过一个仓库分析代理的案例展示了13倍成本降低和3.3倍延迟改进。
精益制造原则在20世纪80年代彻底改变了物理生产,现在,这些原则被系统地应用于AI推理——这是一个被称为“精益推理”的新兴领域。其核心理念是:就像工厂车间需要消除浪费一样,基于LLM的代理架构也需要识别并消除推理过程中的低效。
文章首先描绘了一个熟悉的场景:一个简单的路由决策——用户查询需要数据库查找还是计算器?——却触发了一个带有12,000个token上下文窗口的GPT-4o调用,等待4秒,返回格式错误的JSON,重试两次,最终花费0.40美元解决了一个本可以用正则表达式处理的问题。当这种情况每天发生10,000次时,就形成了一个“推理金钱坑”。
作者借鉴大野耐一的七种浪费框架,识别了LLM推理中的七种浪费:
- 过度生产:默认使用前沿模型处理不需要其能力的任务。例如,路由支持工单可以用8B分类模型,而结构提取可以用微调的3B模型。成本差异巨大:Claude Sonnet是Haiku的3倍,GPT-4o是GPT-4o-mini的10倍。
- 库存:RAG膨胀——将前20个块全部塞入上下文窗口“以防万一”。这增加了输入token成本并降低了检索精度。通过重排序和截断来控制库存。
- 等待:本可并行的工具调用却顺序执行。例如,三个异步调用本可同时进行,却因为顺序阻塞导致890ms等待。
- 缺陷:输出格式错误导致重试循环。结构化输出(如OpenAI的response_format)从根本上消除这类缺陷。
- 过度处理:不必要的思维链。对于路由分类器等非推理任务,移除CoT可减少40-60%的输出token而无质量损失。
精益推理的核心原则包括:
- 即时上下文:按需拉取上下文,而非预先加载“上帝上下文”。实践中包括语义缓存、重排序后注入、步骤级作用域上下文。
- 标准化工作:用确定性代码编码状态机转换、路由规则等,而非让模型推理所有。LangGraph等工具可以显式表示控制流。
- 节拍时间:为每个工作流定义明确的延迟预算。例如,2秒端到端SLA,6个步骤则每步约333ms,这迫使架构决策。
- 提示缓存作为看板:系统提示、工具定义等静态内容可缓存,在API层面节省90%成本。
文章通过一个仓库分析代理展示了前后对比:
- 之前:单个ReAct循环,每步调用GPT-4o,全部仓库上下文,顺序文件读取,未验证输出。平均14秒,约85,000 token,约1.20美元/次。
- 之后:小型路由模型(8B微调)分类任务类型,提示缓存,并行文件读取,结构化输出,严格步骤预算。平均4.2秒,约18,000 token,约0.09美元/次。成本降低13倍,延迟改善3.3倍,输出质量相同。
结论强调:AI工程的下一个前沿不是更大的上下文窗口或更强的基座模型,而是纪律性地消除浪费。每个不必要的模型调用、膨胀的RAG上下文、顺序阻塞操作和输出错误都是工程失败,而非模型失败。精益推理是一套具体的架构决策,可以在当前迭代中实施:审计每一步的token消耗,映射顺序调用,添加结构化输出,调整模型大小,缓存静态提示。