AI News HubLIVE
站内改写2 分鐘閱讀

使用 SageMaker 詳細指標和 CloudWatch Insights 儀表板監控和調試生成式 AI 推理

Amazon SageMaker AI 現在提供超過 100 種詳細的推理指標,涵蓋 GPU 健康、令牌級延遲、KV 緩存壓力、可用區流量分佈等。這些指標通過內置的 SageMaker Insights 儀表板在 CloudWatch 中展示,支持 PromQL 查詢。本文介紹如何啓用詳細可觀測性、導航儀表板以及將指標連接到外部工具。

來源AWS Machine Learning Blog作者: Apoorva Chandra

Amazon SageMaker AI 為機器學習模型提供完全託管的實時推理託管服務。您可以將模型部署到由一個或多個計算實例支持的 SageMaker 端點,SageMaker 負責配置和擴展。SageMaker 支持多種端點架構,本文重點介紹與生成式 AI 工作負載最相關的兩種架構:單模型端點 (SME) 和推理組件 (IC) 端點。

SME 在每個專用實例上託管一個模型,設置簡單直觀,但每個模型需要自己的 GPU 實例集羣。IC 端點允許多個模型通過推理組件共享同一組實例,每個推理組件定義模型及其資源需求(CPU、GPU、內存)和擴縮策略。IC 端點是生產環境中生成式 AI 工作負載的推薦架構,因為它支持在共享 GPU 基礎設施上進行多模型託管、每個模型獨立擴縮以及通過跨可用區副本分佈實現高可用性 (HA)。

隨着團隊在 GPU 集羣上進行多模型部署,他們需要更深入的信號。Amazon SageMaker AI 現在提供超過 100 種詳細的推理指標,涵蓋 GPU 健康、令牌級延遲、KV 緩存壓力、跨可用區流量分佈、推理組件放置和冷啓動診斷。這些指標流入 CloudWatch 中的內置 SageMaker Insights 儀表板,這是一種完全託管的可觀測性解決方案,無需自定義 Grafana 儀表板和 Prometheus 配置。SageMaker Insights 儀表板支持兩種端點類型,並在檢測到推理組件時自動顯示 IC 特定面板。

啓用詳細指標

對於新的端點配置,詳細指標默認啓用。EnableDetailedObservability 參數默認為 true。您還可以使用 MetricsConfig 中的 MetricsPublishFrequencyInSeconds 顯式設置發佈頻率,默認值為 60 秒。對於需要近乎實時監控的工作負載,可以設置為小於 60 秒。創建端點配置後,端點達到 InService 狀態後 2 分鐘內,OpenTelemetry 格式的指標將開始流入 CloudWatch。

對於現有端點,需要顯式選擇加入。創建一個帶有 MetricsConfig 標誌的新端點配置,然後更新端點。SageMaker 控制台還提供了一個引導式三步向導,用於啓用詳細可觀測性、瞭解指標、啓用 OTel 增強以及選擇要選擇的端點。

啓用 OTel 增強以獲取經典 CloudWatch 指標

原生 OpenTelemetry 指標在啓用後會自動流入 CloudWatch。但是,現有的經典指標(如 Invocations、ModelLatency、OverheadLatency)需要 OTel 增強才能在 SageMaker Insights 儀表板中可見並可使用 PromQL 查詢。導航到 CloudWatch 控制台,然後選擇“設置”,啓用“OTel 指標增強”和“資源標籤遙測”。這是一次性、賬户級和 AWS 區域級的設置。

導航 SageMaker Insights 儀表板

可以通過 SageMaker 控制台或 CloudWatch 控制台訪問 SageMaker Insights 儀表板。在 SageMaker 中,有三個入口點,每個入口點都預先過濾了上下文:端點列表頁面、端點詳細頁面和推理組件選項卡。每個路徑都帶有預應用過濾器的深度鏈接,因此您不會看到空白儀表板。

性能選項卡

性能選項卡是大多數客户花費最多時間的地方。它回答了“一切運行良好嗎?”以及“如果不是,哪個組件有問題?”等問題。該選項卡包含多個時間序列面板,共同協作以精確定位延遲問題。其中包括性能健康地圖(六邊形色塊)、令牌流面板(TTFT 和 ITL)、延遲細分面板、流量分佈面板和令牌吞吐量面板。此外,引擎和請求壓力面板是防止中斷的早期預警系統。

容量選項卡

容量選項卡回答了“我有足夠的資源嗎?”、“哪裏有閒置容量?”和“還能再容納一個模型嗎?”等問題。它包含與性能選項卡相同的六邊形可視化,顯示資源利用率。

可靠性選項卡

可靠性選項卡顯示可用區分佈、擴縮事件、冷啓動分析和容量不足錯誤。

連接到外部工具

SageMaker Insights 儀表板還提供 PromQL 兼容端點,您可以將指標連接到 Grafana、Datadog 等現有可觀測性工具。

總之,SageMaker 的詳細可觀測性功能使團隊能夠快速診斷和解決生成式 AI 推理端點的問題,確保高可用性和成本效率。