2026-06-04 01:41 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

精益推理：将精益制造原则应用于人工智能

本文将精益制造原则应用于AI推理，识别了LLM推理中的七大浪费，并提出了即时上下文、标准化工作、节拍时间和提示缓存等核心原则，通过一个仓库分析代理的案例展示了13倍成本降低和3.3倍延迟改进。

精益制造原则在20世纪80年代彻底改变了物理生产，现在，这些原则被系统地应用于AI推理——这是一个被称为“精益推理”的新兴领域。其核心理念是：就像工厂车间需要消除浪费一样，基于LLM的代理架构也需要识别并消除推理过程中的低效。

文章首先描绘了一个熟悉的场景：一个简单的路由决策——用户查询需要数据库查找还是计算器？——却触发了一个带有12,000个token上下文窗口的GPT-4o调用，等待4秒，返回格式错误的JSON，重试两次，最终花费0.40美元解决了一个本可以用正则表达式处理的问题。当这种情况每天发生10,000次时，就形成了一个“推理金钱坑”。

作者借鉴大野耐一的七种浪费框架，识别了LLM推理中的七种浪费：

过度生产：默认使用前沿模型处理不需要其能力的任务。例如，路由支持工单可以用8B分类模型，而结构提取可以用微调的3B模型。成本差异巨大：Claude Sonnet是Haiku的3倍，GPT-4o是GPT-4o-mini的10倍。
库存：RAG膨胀——将前20个块全部塞入上下文窗口“以防万一”。这增加了输入token成本并降低了检索精度。通过重排序和截断来控制库存。
等待：本可并行的工具调用却顺序执行。例如，三个异步调用本可同时进行，却因为顺序阻塞导致890ms等待。
缺陷：输出格式错误导致重试循环。结构化输出（如OpenAI的response_format）从根本上消除这类缺陷。
过度处理：不必要的思维链。对于路由分类器等非推理任务，移除CoT可减少40-60%的输出token而无质量损失。

精益推理的核心原则包括：

即时上下文：按需拉取上下文，而非预先加载“上帝上下文”。实践中包括语义缓存、重排序后注入、步骤级作用域上下文。
标准化工作：用确定性代码编码状态机转换、路由规则等，而非让模型推理所有。LangGraph等工具可以显式表示控制流。
节拍时间：为每个工作流定义明确的延迟预算。例如，2秒端到端SLA，6个步骤则每步约333ms，这迫使架构决策。
提示缓存作为看板：系统提示、工具定义等静态内容可缓存，在API层面节省90%成本。

文章通过一个仓库分析代理展示了前后对比：

之前：单个ReAct循环，每步调用GPT-4o，全部仓库上下文，顺序文件读取，未验证输出。平均14秒，约85,000 token，约1.20美元/次。
之后：小型路由模型（8B微调）分类任务类型，提示缓存，并行文件读取，结构化输出，严格步骤预算。平均4.2秒，约18,000 token，约0.09美元/次。成本降低13倍，延迟改善3.3倍，输出质量相同。

结论强调：AI工程的下一个前沿不是更大的上下文窗口或更强的基座模型，而是纪律性地消除浪费。每个不必要的模型调用、膨胀的RAG上下文、顺序阻塞操作和输出错误都是工程失败，而非模型失败。精益推理是一套具体的架构决策，可以在当前迭代中实施：审计每一步的token消耗，映射顺序调用，添加结构化输出，调整模型大小，缓存静态提示。