AI News HubLIVE
站内改写4 分钟阅读

超越每秒Token数:如何平衡LLM推理的速度、成本和质量

大多数团队仍以每秒Token数和每百万Token成本评估LLM,但这些指标无法预测生产行为。本文揭示了速度、成本和质量之间的真实权衡,介绍了帕累托前沿作为评估框架,并强调了TTFT、p99延迟等关键生产指标。

大多数团队仍然使用供应商主页上最显眼的两个指标来评估大语言模型(LLM):每秒Token数和每百万Token成本。这些数字简单、方便、易于比较,但它们很少能预测生产环境中的实际行为。一个在严格控制基准测试中看似快速的模型,在中等并发下可能会停滞不前;一个看起来成本高效的模型,当流量增长时可能会导致2-3倍的预算超支;而强大的合成性能在真实世界的提示、真实延迟和真实的多步骤流水线中可能会急剧下降。

如今,大语言模型驱动着企业级人工智能系统:多模态流程、检索增强生成(RAG)流水线、编排代理、多模型集成以及支持数千并发用户的交互式应用程序。这些环境会放大微小的性能问题,将低效转化为用户可见的故障或失控的基础设施成本。

为了成功实现大规模运行,团队需要理解大语言模型推理的更深层机制:精度如何影响推理能力,并发性如何塑造延迟分布,并行性如何改变吞吐量,以及调度规则如何与流量模式交互。本文旨在指导企业团队识别大语言模型部署中的隐藏权衡,并通过实际工作负载的视角(而非简化指标)来评估性能。

为什么传统基准测试会误导团队(以及供应商如何操控它们)

基准测试结果通常看起来具有决定性:一个单一的吞吐量数字、一个每百万Token成本估算,或者一个显示某个模型优于另一个的图表。但这些数字背后的现实很少能代表大语言模型在生产中的实际行为。供应商通常设计基准测试来突出理想条件下的优势,而不是企业级工作负载中存在的可变性、不可预测性和多维权衡。

表面之下,这制造了一种性能幻觉,可能严重扭曲基础设施规划、产品决策和成本预测。

Token吞吐量和单位成本的局限性:Token吞吐量是批量优化的,通过大型同质批次、一致的序列长度和预热GPU来测量。在这些条件下,即使中等硬件也能显示令人印象深刻的数字。但企业流量并非同质:用户发送变长提示,请求以不可预测的间隔到达,应用程序通常混合了交互式和批处理工作负载。Token/秒未能捕捉:交互行为(聊天机器人中的TTFT而非吞吐量驱动感知速度)、调度约束(并发决定Token的生成和排队方式)、混合长度低效(长提示造成批处理停滞,短提示无法充分利用GPU)以及冷启动惩罚(新会话、容器启动和缓存未命中会扭曲性能)。

每百万Token成本同样不完整。它排除了实际驱动基础设施支出的因素,包括延迟开销、量化导致的质量下降以及为在真实流量下维持SLA所需的额外GPU小时。团队最终支付的费用往往是预测的两到三倍,因为供应商指标没有考虑并发性、尾部延迟或质量影响。

供应商如何操控基准条件:为了最大化头版性能,供应商通常会调整其推理栈以优化条件而非现实条件。这包括:激进的量化(int8/int4)降低VRAM需求并提高吞吐量,但会严重损害推理准确性、长上下文一致性和细微任务的表现;确定性解码(温度=0)稳定了基准测试,但隐藏了真实对话代理中出现的方差和非确定性;预热缓存基准测试预加载KV缓存、嵌入或模型权重,使基准测试永远不会遇到真正的冷启动行为;合成提示生成使用固定长度的均匀提示,创建完美高效的批次,而真实工作负载的序列长度变化极大;锁定内存和定制硬件导致误导性的速度或成本推断;禁用安全或路由层去掉了生产系统必须运行的安全分类器、审核层或系统提示引入的延迟。

这些优化本身都没有错,但它们常常产生的指标并不能准确反映真实企业环境中的端到端行为。

理解大语言模型部署中的真实权衡(以及为什么帕累托前沿很重要)

在评估大语言模型性能时,目标不是找到最快或最便宜的模型,而是理解哪些权衡对你的工作负载重要,并为这些特定约束选择一种平衡速度、成本和质量的最佳配置。大语言模型推理是一个多目标优化问题,每个轴上的改进都会影响其他轴。

速度、成本和质量不能独立优化:每种推理配置都受到三种对立力量的影响。速度受批处理策略、调度激进程度、精度水平和并行性选择的影响。追求更高速度通常会引入权衡,例如在流量不规则或突发时增加p99延迟或降低输出质量。成本由模型大小、精度和并发限制驱动。降低成本通常涉及约束其中一个或多个维度,这可能会减少推理深度、准确性或在需求高峰时的响应能力。质量通过更高精度、更大上下文窗口、更保守的调度和减少批处理来提升,但这些选择会增加计算负载、减慢推理并提高GPU支出。

这些力量相互牵制。一个主要针对成本调整的配置通常会牺牲TTFT或推理质量;一个针对速度调整的配置可能在高等并发下挣扎;一个针对质量调整的配置可能需要显著更多的计算资源。没有通用的最佳配置,只有针对特定工作负载的适当平衡。

这就是为什么依赖每秒Token数或任何单一指标不可避免地导致决策失误。帕累托前沿框架能够展示所有配置中,改善一个指标需要牺牲另一个指标的那些配置。它提供了一种结构化的方式来理解权衡,而不是盲目优化。在实践中,帕累托最优配置揭示了团队如何必须在以下方面做出平衡:更低的TTFT与更低的吞吐量、更好的质量与更高的成本、更高的并发与更多的内存使用、更紧的p99延迟与降低的批处理效率。这种方法将评估与实际业务需求对齐,使团队能够为其约束条件选择最佳配置,而非拥有最令人印象深刻的基准数字的配置。

标准基准测试中缺失的生产关键指标

大多数公开基准测试关注吞吐量,但仅靠吞吐量无法预测大语言模型在实际工作负载下的行为。企业流量暴露了简单基准数字隐藏的性能维度:响应性、并发限制、调度行为和内存模式。这些指标直接影响用户体验、SLA稳定性和基础设施成本。

TTFT(首次Token生成时间)主导聊天、代理和副驾驶的用户体验。交互式应用生存在TTFT和p99延迟之上,因为用户感知到每一毫秒。TTFT对批处理累积、缓存未命中和调度选择敏感,决定了界面的响应感。高TTFT使助手在回复前犹豫,降低信任和参与度,即使吞吐量很强。Token间延迟(ITL)决定了流式平滑度和SLA稳定性。变异性来自解码阶段的内存压力和调度开销。当ITL不一致时,对话代理感觉断断续续或“结巴”,增加用户流失。p99延迟揭示了在真实并发下的真实性能。平均延迟隐藏了尾部行为。p99显示系统在并发激增或输入长度变化时的反应。高p99值会破坏SLA、触发超时,并迫使团队过度配置GPU以补偿不可预测的边缘情况。

这些指标共同构成了评估大语言模型推理性能的更完整画面。团队应超越基准指标,构建考虑其特定工作负载的评估框架。