AI训练与推理:有什么区别?
AI训练让模型从数据中学习,而推理则是模型在生产中响应请求。本文详细解释了两者在硬件、成本、优化等方面的关键差异,并介绍了模型从预训练到服务的完整生命周期,以及衡量推理性能的四个关键指标。
AI训练是模型从海量数据中学习的过程,通过调整权重使其能够执行编写代码、回答问题或生成图像等任务。而AI推理则是训练完成后,模型对从未见过的新数据生成输出的阶段。
想象一下聘请一位学者为你讲解莎士比亚。首先,他在大学里花数年时间阅读剧本、讨论主题、辩论不同解读,这就是训练。一旦学成,你可以随时提问并立即得到答案,这就是推理。
大多数团队在推理上花费的时间远超训练:训练只发生有限次数,而推理在每次有人使用模型时都会发生。本文详细分析了两者的区别。
推理的应用场景
如果你使用过AI产品,那么你已经触发了推理:
- 当GPT OSS回答你的问题时
- 当你让Cursor编写代码时
- 当AI标记医疗对话中的异常时(例如Abridge)
- 当Notion AI总结会议或起草文档时
在这些场景中,训练好的模型根据新输入生成输出,此时模型权重冻结,没有学习发生,这就是推理。
从训练到推理:模型生命周期
模型在投入生产前会经历多个阶段:
- 预训练:模型接触海量数据,学习输入和输出之间的模式和关系。它执行前向传播生成预测,计算损失,然后通过反向传播更新权重,重复此过程直到掌握广泛知识。
- 后训练(微调):在预训练模型基础上,使用专门数据集调整权重,使其胜任特定任务。例如,Baseten想为客服机器人微调模型,使其了解产品术语并以公司口吻回答。
- 优化:通过量化和编译将模型转换为目标硬件所需的格式,使其能在生产中快速运行。
- 部署:分配GPU、设置API端点、配置自动缩放,使系统能根据流量增加或减少GPU。
- 服务:处理实时请求,满足速度和可用性承诺。优化如批处理请求和缓存常见输出可最大化吞吐量并最小化延迟。
衡量推理成功的关键指标
在生产中运行模型时,准确性不够,用户关心响应速度,你关心系统可扩展性。四个关键指标:
- 首次令牌时间(TTFT):用户发送请求后看到第一个响应的速度。高TTFT会让应用感觉卡顿。
- 每输出令牌时间(TPOT):每个后续令牌之间的间隔,影响流式输出的流畅度。
- 吞吐量:系统每秒生成的令牌总数,衡量系统级容量。
- 延迟:单个请求从发起到完成的全部时间,是服务等级协议(SLA)的关键指标。
在Baseten上,每个请求都会记录延迟。专用部署自动追踪TPOT和TTFT,端到端延迟指标帮助团队了解模型表现。
训练与推理的差异
1. 计算与时间:训练在数天到数周内有限次数运行,需要大量GPU集群和计算资源。推理随用户请求实时发生,计算需求随流量变化。推理模型生成更多令牌,成本更高。
2. 硬件适配:训练需要高互联带宽(如NVLink或InfiniBand)和大内存。推理硬件更灵活,小型嵌入模型可用L4,前沿推理模型可能需要B200。
3. 优化技术:推理有专门优化工具:推测解码提升TPOT和延迟;连续批处理提升吞吐量;KV缓存管理提升TTFT。Baseten使用KV缓存感知路由将请求发送到已有相关缓存的GPU,TTFT降低约3倍。
Baseten在AI推理中的角色
Baseten是一个推理平台,公司可在其上部署自定义模型、访问模型API和执行后训练。它通过GPU批处理最大化硬件效率,并提供多云管理。团队可选择按令牌付费的共享模型API或专用GPU集群。Baseten的模型性能团队应用自定义内核、KV缓存优化和推测解码等技术,从每个GPU中榨取更多令牌。
在训练期间,Baseten保存多个检查点,允许从中断处恢复训练并比较模型质量。选择最佳检查点后,可部署为生产推理API端点。
常见问题
同一硬件能否同时用于训练和推理? 可以,但推理通常可在较便宜的硬件上更经济地运行。
在线推理与批量推理有何区别? 在线推理低延迟服务单个请求;批量推理优先吞吐量,处理大量输入。选择取决于是否需要即时结果。
为什么推理在大规模下比训练更昂贵? 训练是一次性或周期性成本,而推理随每次请求累积。对于每天数百万请求的模型,推理账单很快超过训练成本。Baseten按使用付费,无前期承诺。