使用 SageMaker 详细指标和 CloudWatch Insights 仪表板监控和调试生成式 AI 推理
Amazon SageMaker AI 现在提供超过 100 种详细的推理指标,涵盖 GPU 健康、令牌级延迟、KV 缓存压力、可用区流量分布等。这些指标通过内置的 SageMaker Insights 仪表板在 CloudWatch 中展示,支持 PromQL 查询。本文介绍如何启用详细可观测性、导航仪表板以及将指标连接到外部工具。
Amazon SageMaker AI 为机器学习模型提供完全托管的实时推理托管服务。您可以将模型部署到由一个或多个计算实例支持的 SageMaker 端点,SageMaker 负责配置和扩展。SageMaker 支持多种端点架构,本文重点介绍与生成式 AI 工作负载最相关的两种架构:单模型端点 (SME) 和推理组件 (IC) 端点。
SME 在每个专用实例上托管一个模型,设置简单直观,但每个模型需要自己的 GPU 实例集群。IC 端点允许多个模型通过推理组件共享同一组实例,每个推理组件定义模型及其资源需求(CPU、GPU、内存)和扩缩策略。IC 端点是生产环境中生成式 AI 工作负载的推荐架构,因为它支持在共享 GPU 基础设施上进行多模型托管、每个模型独立扩缩以及通过跨可用区副本分布实现高可用性 (HA)。
随着团队在 GPU 集群上进行多模型部署,他们需要更深入的信号。Amazon SageMaker AI 现在提供超过 100 种详细的推理指标,涵盖 GPU 健康、令牌级延迟、KV 缓存压力、跨可用区流量分布、推理组件放置和冷启动诊断。这些指标流入 CloudWatch 中的内置 SageMaker Insights 仪表板,这是一种完全托管的可观测性解决方案,无需自定义 Grafana 仪表板和 Prometheus 配置。SageMaker Insights 仪表板支持两种端点类型,并在检测到推理组件时自动显示 IC 特定面板。
启用详细指标
对于新的端点配置,详细指标默认启用。EnableDetailedObservability 参数默认为 true。您还可以使用 MetricsConfig 中的 MetricsPublishFrequencyInSeconds 显式设置发布频率,默认值为 60 秒。对于需要近乎实时监控的工作负载,可以设置为小于 60 秒。创建端点配置后,端点达到 InService 状态后 2 分钟内,OpenTelemetry 格式的指标将开始流入 CloudWatch。
对于现有端点,需要显式选择加入。创建一个带有 MetricsConfig 标志的新端点配置,然后更新端点。SageMaker 控制台还提供了一个引导式三步向导,用于启用详细可观测性、了解指标、启用 OTel 增强以及选择要选择的端点。
启用 OTel 增强以获取经典 CloudWatch 指标
原生 OpenTelemetry 指标在启用后会自动流入 CloudWatch。但是,现有的经典指标(如 Invocations、ModelLatency、OverheadLatency)需要 OTel 增强才能在 SageMaker Insights 仪表板中可见并可使用 PromQL 查询。导航到 CloudWatch 控制台,然后选择“设置”,启用“OTel 指标增强”和“资源标签遥测”。这是一次性、账户级和 AWS 区域级的设置。
导航 SageMaker Insights 仪表板
可以通过 SageMaker 控制台或 CloudWatch 控制台访问 SageMaker Insights 仪表板。在 SageMaker 中,有三个入口点,每个入口点都预先过滤了上下文:端点列表页面、端点详细页面和推理组件选项卡。每个路径都带有预应用过滤器的深度链接,因此您不会看到空白仪表板。
性能选项卡
性能选项卡是大多数客户花费最多时间的地方。它回答了“一切运行良好吗?”以及“如果不是,哪个组件有问题?”等问题。该选项卡包含多个时间序列面板,共同协作以精确定位延迟问题。其中包括性能健康地图(六边形色块)、令牌流面板(TTFT 和 ITL)、延迟细分面板、流量分布面板和令牌吞吐量面板。此外,引擎和请求压力面板是防止中断的早期预警系统。
容量选项卡
容量选项卡回答了“我有足够的资源吗?”、“哪里有闲置容量?”和“还能再容纳一个模型吗?”等问题。它包含与性能选项卡相同的六边形可视化,显示资源利用率。
可靠性选项卡
可靠性选项卡显示可用区分布、扩缩事件、冷启动分析和容量不足错误。
连接到外部工具
SageMaker Insights 仪表板还提供 PromQL 兼容端点,您可以将指标连接到 Grafana、Datadog 等现有可观测性工具。
总之,SageMaker 的详细可观测性功能使团队能够快速诊断和解决生成式 AI 推理端点的问题,确保高可用性和成本效率。